Jan, 2024

修剪以增加对齐 LLMs 的防越狱能力,无需微调

TL;DR通过修剪大型语言模型(LLM)的参数,可以显著提高其对 Jailbreaking 提示的抵抗力,而且不需要额外的训练,并且在标准基准测试中不会牺牲性能。此外,我们引入了一个由 225 个有害任务组成的精选数据集,并将其插入到 10 个不同的 Jailbreaking 提示中,结果显示修剪有助于 LLM 集中注意力于与提示相关的标记。最后,我们的实验揭示了著名的聊天模型(如 LLaMA-2 Chat,Vicuna 和 Mistral Instruct)对 Jailbreaking 攻击非常容易受到攻击,某些类别的成功率接近 70-100%。这些结果凸显了修剪作为提高 LLM 的安全性、可靠性和其他所期望行为的可推广方法的潜力。