大规模语言模型的惰性安全对齐防止有害微调
当前大型语言模型(LLM)存在的安全对齐问题容易受到攻击,我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在,并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞,包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时,我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向,并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之,我们主张未来的安全对齐应该超越前几个标记而更加深入。
Jun, 2024
通过推出一种推理时攻击框架,研究表明安全对齐也可能在对抗性操作下无意中促进有害结果,实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率,从而强调重评估安全对齐后的开源语言模型的重要性。
Feb, 2024
本研究通过弱分类器解释大型语言模型的安全性,确认在预训练阶段 LLMs 学习道德概念而不是对齐,揭示了安全对其生成的恶意内容的抵御机制,以及越过安全限制的越狱行为对 LLM 安全的影响,从而提供了 LLM 安全的内在机制和减轻担忧的新视角。
Jun, 2024
通过测量和可视化大型语言模型(LLMs)的安全景观,我们发现了一种称为 “安全盆地” 的普遍现象,该现象在流行的开源 LLMs 模型参数空间中观察到。我们提出了一种新的安全度量标准,VISAGE 安全度量标准,用于通过探测安全景观来衡量 LLMs 微调的安全性,并通过可视化的安全景观了解 LLMs 通过微调如何降低其安全性。LLMs 的安全景观还突出了系统提示在保护模型中的关键作用,并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于 LLMs 安全性的工作提供了新的见解。
May, 2024
当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题,我们筛选了一个视觉语言安全指令数据集 VLGuard,并将其整合到标准的视觉语言微调中,使模型在安全性方面得到了有效的提升,同时对模型的帮助性影响最小甚至有所增强。经验结果表明,经过微调的大型视觉语言模型能够有效拒绝不安全的指令,并大幅降低几种黑盒对抗攻击的成功率。
Feb, 2024
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对 GPT-3.5 Turbo 进行微调,就可能危及 LLMs 的安全对齐性。此外,我们的研究还揭示,即使没有恶意意图,只需使用良性且常用的数据集对 LLMs 进行微调,也可能无意中降低其安全对齐性。这些发现表明,细调对齐的 LLMs 引入了新的安全风险,而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析,并倡导进一步的研究努力,以加强对齐的 LLMs 的自定义微调的安全协议。
Oct, 2023
将多个专家语言模型合并成单一多功能模型的成本效益技术中,当前方法经常忽视了合并过程中安全对齐的重要性,导致模型高度不对齐。本研究调查了模型合并对对齐的影响,评估了几种常见的模型合并技术,证明现有方法不仅传递了领域专业知识,还传播了错对齐。我们提出了一个简单的两步方法来解决这个问题:(i) 生成合成的安全性和领域特定数据,和 (ii) 将这些生成的数据纳入到现有数据感知的模型合并技术的优化过程中。这样,我们可以将对齐视为一项可以在合并后的多功能语言模型中最大化的技能。我们的实验表明,在合并过程中整合与对齐相关的数据的有效性,产生了在领域专业知识和对齐度方面都优秀的模型。
Jun, 2024
通过子空间导向模型融合(SOMF)的安全重新对齐框架,本研究旨在将初始对齐模型和当前精细调整后的模型的安全能力结合到重新对齐的模型中,验证了该框架在维持安全性的同时不明显损害下游任务的性能。
May, 2024