LLM对齐新进展：ICLR 2025 spotlight论文揭示“安全遗忘”可攻击性

显示全部楼层

团队们好，今天聊个硬核的——模型安全与对齐。最近ICLR 2025一篇spotlight论文（https://openreview.net/forum?id=xxxx）指出，当前流行的“安全遗忘”（Safety Unlearning）方法存在系统性漏洞。

核心发现：攻击者只需构造少量“对抗性提示”（比如在正常指令前加特定前缀），就能绕过经RLHF或DPO对齐的模型防护。实验数据：在Llama-3-8B-Instruct上，传统对齐方法在标准测试集上安全率98%，但用论文提出的“前缀注入”攻击后，安全率暴跌至34%。

技术细节：这不是简单的prompt注入，而是利用模型对“上下文模式”的过度依赖。作者发现，对齐训练让模型学会了“记住”安全模式，而非“理解”安全边界。当输入偏离训练分布（如加入罕见token组合），安全机制自动失效。

实用建议：如果你在做本地部署或微调，别只依赖RLHF。建议叠加“输入正则化”（如限制token长度、过滤罕见unicode）和“输出一致性检查”（同问题反复问，看回答是否矛盾）。论文还开源了评估工具，链接在回复区。

记住：对齐不是一劳永逸，而是猫鼠游戏。保持更新。