May, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

TL;DR通过 Layer-specific Editing (LED) 方法,本研究探讨了大型语言模型(LLMs)对有害提示的反应,并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐,可以显著提高 LLMs 对破解攻击的适应性。