通过修剪和低秩修改评估安全对齐的脆弱性
通过修剪大型语言模型(LLM)的参数,可以显著提高其对 Jailbreaking 提示的抵抗力,而且不需要额外的训练,并且在标准基准测试中不会牺牲性能。此外,我们引入了一个由 225 个有害任务组成的精选数据集,并将其插入到 10 个不同的 Jailbreaking 提示中,结果显示修剪有助于 LLM 集中注意力于与提示相关的标记。最后,我们的实验揭示了著名的聊天模型(如 LLaMA-2 Chat,Vicuna 和 Mistral Instruct)对 Jailbreaking 攻击非常容易受到攻击,某些类别的成功率接近 70-100%。这些结果凸显了修剪作为提高 LLM 的安全性、可靠性和其他所期望行为的可推广方法的潜力。
Jan, 2024
通过测量和可视化大型语言模型(LLMs)的安全景观,我们发现了一种称为 “安全盆地” 的普遍现象,该现象在流行的开源 LLMs 模型参数空间中观察到。我们提出了一种新的安全度量标准,VISAGE 安全度量标准,用于通过探测安全景观来衡量 LLMs 微调的安全性,并通过可视化的安全景观了解 LLMs 通过微调如何降低其安全性。LLMs 的安全景观还突出了系统提示在保护模型中的关键作用,并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于 LLMs 安全性的工作提供了新的见解。
May, 2024
当前大型语言模型(LLM)存在的安全对齐问题容易受到攻击,我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在,并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞,包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时,我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向,并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之,我们主张未来的安全对齐应该超越前几个标记而更加深入。
Jun, 2024
本研究通过弱分类器解释大型语言模型的安全性,确认在预训练阶段 LLMs 学习道德概念而不是对齐,揭示了安全对其生成的恶意内容的抵御机制,以及越过安全限制的越狱行为对 LLM 安全的影响,从而提供了 LLM 安全的内在机制和减轻担忧的新视角。
Jun, 2024
我们提出了一种自我改进的格式化方法,即使在非安全对齐的语言模型中也能实现出色的安全性,通过将我们的方法与几种防御基线进行评估,证明它是针对越狱攻击最安全的无需训练的方法。此外,我们提出了一种格式化方法,可以在更少的迭代中提高自我改进过程的效率,同时降低攻击成功率。我们还观察到,在安全任务中,非安全对齐的语言模型比安全对齐的语言模型表现更好,给出更有帮助且安全的回应。总之,我们的研究发现可以在减少计算成本的同时减少安全风险,使非安全的语言模型可以在真实世界的服务中轻松应用。
Feb, 2024
我们通过从机理解释的角度探索安全对齐的内在机制,重点是识别和分析大语言模型中负责安全行为的安全神经元。我们提出了生成时激活对比来定位这些神经元,并提出了动态激活修复来评估其因果效应。多个最新的大语言模型的实验证明:(1)安全神经元是稀疏而有效的。只通过对大约 5%的神经元进行干预,我们可以恢复 90%的安全性能。 (2)安全神经元编码可转移的机制。它们在不同的红队测试数据集上表现出一致的有效性。安全神经元的发现还解释了 “对齐税” 的现象。我们观察到,安全和有用的关键神经元明显重叠,但它们对共享神经元的激活模式有不同要求。此外,我们展示了在生成之前使用安全神经元检测不安全输出的应用。我们的发现可能促进进一步研究理解大语言模型的对齐。源代码将公开发布以促进未来的研究。
Jun, 2024
我们提出了一种数据筛选框架,以增强大语言模型的安全对齐性,通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中,我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练,观察到在安全对齐方面对有害查询的响应性明显改善,例如当使用含有 5% 有害实例的众包数据集进行预训练时,添加相同数量的经过筛选的文本显著减少了大语言模型提供有害响应的可能性,并将攻击成功率降低了 71%。我们的研究代表了缓解基于训练的越狱风险以及加固大语言模型安全使用的重要进展。
May, 2024
通过双向锚定方法优先选择与有害示例接近但远离良性示例的数据点,我们的方法有效地识别了在微调后可能降低模型安全性的良性数据子集。
Apr, 2024
提出了三个指标来评估语言模型的越狱,分别是安全违规、信息性和相对真实性,并展示了这些指标与不同恶意用户的目标之间的相关性,通过预处理响应扩展了自然语言生成评估方法来计算这些指标,对来自三个恶意目的数据集和三个越狱系统产生的基准数据集进行了评估,与现有的越狱评估方法相比,实验证明我们的多方面评估方法在平均 F1 得分上提高了 17%,我们的发现促使我们摆脱越狱问题的二元观点,引入更全面的评估来确保语言模型的安全性。
Apr, 2024