Feb, 2024

疫苗:针对大型语言模型的扰动感知对齐

TL;DR新型的定型服务范式引入了大型语言模型(LLMs)的新攻击面:用户上传的少量有害数据可以轻易地欺骗定型,从而产生对齐破坏的模型。我们进行了实证分析,揭示了一种可能引起对齐破坏效应的有害嵌入漂移现象。在我们的研究发现的启示下,我们提出了一种名为 Vaccine 的扰动感知对齐技术,以减轻用户定型的安全风险。疫苗的核心思想是通过在对齐阶段逐步添加精心设计的扰动,产生不变的隐藏嵌入。这使得嵌入能够抵御定型阶段不经过消毒处理的用户数据所带来的有害扰动。我们在开源主流 LLMs(例如 Llama2、Opt、Vicuna)上的实验结果表明,Vaccine 可以增强对抗由有害提示引起的嵌入漂移而保留对良性提示的推理能力。我们的代码可在 https://github.com/git-disl/Vaccine 获取。