Apr, 2024

通用对抗触发器并非通用

TL;DR针对通过优化模型找到的诱发不安全响应的标记序列,即对抗触发器,我们研究了它们的转移能力、鲁棒性以及优化方法对模型的影响,发现对齐的偏好优化模型(APO)极难被破解,然而对齐的微调模型(AFT)对对抗触发器非常敏感,并且大部分针对 AFT 模型优化的触发器还可以泛化到来自五个不同领域的新的不安全指令,突显了它们的脆弱性。因此,我们的工作强调了对对齐语言模型进行更全面安全评估的必要性。