May, 2024
通过特定层编辑来防御针对大型语言模型的越狱攻击
Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing
Wei Zhao, Zhe Li, Yige Li, Ye Zhang, Jun Sun
TL;DR通过 Layer-specific Editing (LED) 方法,本研究探讨了大型语言模型(LLMs)对有害提示的反应,并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐,可以显著提高 LLMs 对破解攻击的适应性。