基于子空间导向模型融合的大型语言模型安全重整框架
当前大型语言模型(LLM)存在的安全对齐问题容易受到攻击,我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在,并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞,包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时,我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向,并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之,我们主张未来的安全对齐应该超越前几个标记而更加深入。
Jun, 2024
通过设计合成数据生成框架,研究了三种常见的安全微调方法,即监督安全微调、直接偏好优化和遗忘学习。它们通过最小程度地转换多层感知器(MLP)权重,将不安全输入与权重的空空间相对齐,进而对输入进行聚类,确定模型是否将其视为安全。该研究还验证了这些结论在真实世界模型(Llama-2 7B 和 Llama-3 8B)上的可行性。
Jul, 2024
通过简单的算术方法,用一个安全向量对受损模型的权重进行相加,我们提出的 LLM 安全重新对齐方法 RESTA 能够有效地降低受损模型的有害性,而在任务上保持大部分模型的性能。
Feb, 2024
通过测量和可视化大型语言模型(LLMs)的安全景观,我们发现了一种称为 “安全盆地” 的普遍现象,该现象在流行的开源 LLMs 模型参数空间中观察到。我们提出了一种新的安全度量标准,VISAGE 安全度量标准,用于通过探测安全景观来衡量 LLMs 微调的安全性,并通过可视化的安全景观了解 LLMs 通过微调如何降低其安全性。LLMs 的安全景观还突出了系统提示在保护模型中的关键作用,并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于 LLMs 安全性的工作提供了新的见解。
May, 2024
当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题,我们筛选了一个视觉语言安全指令数据集 VLGuard,并将其整合到标准的视觉语言微调中,使模型在安全性方面得到了有效的提升,同时对模型的帮助性影响最小甚至有所增强。经验结果表明,经过微调的大型视觉语言模型能够有效拒绝不安全的指令,并大幅降低几种黑盒对抗攻击的成功率。
Feb, 2024
将多个专家语言模型合并成单一多功能模型的成本效益技术中,当前方法经常忽视了合并过程中安全对齐的重要性,导致模型高度不对齐。本研究调查了模型合并对对齐的影响,评估了几种常见的模型合并技术,证明现有方法不仅传递了领域专业知识,还传播了错对齐。我们提出了一个简单的两步方法来解决这个问题:(i) 生成合成的安全性和领域特定数据,和 (ii) 将这些生成的数据纳入到现有数据感知的模型合并技术的优化过程中。这样,我们可以将对齐视为一项可以在合并后的多功能语言模型中最大化的技能。我们的实验表明,在合并过程中整合与对齐相关的数据的有效性,产生了在领域专业知识和对齐度方面都优秀的模型。
Jun, 2024
安全算术是一种训练 - free 的框架,可提高大型语言模型在不同场景下的安全性,通过避免有害内容和促进安全响应来确保模型的安全性,实验证明安全算术在确保生成安全内容方面优于现有方法。
Jun, 2024
开源大型语言模型(LLMs)的安全性需要加固以防止恶意攻击,本研究通过引入 Shadow Alignment 概念,展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性,并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。
Oct, 2023
该研究探讨了大型语言模型的安全性问题,并指出其在多项选择问题和开放性问题之间性能存在显著差异,可能是由于不完全理解安全概念导致了虚假的对齐现象。为了解决这个问题,引入了 FAEF 框架和两个新的指标,Consistency Score (CS) 和 Consistent Safety Score (CSS),以综合评估和纠正性能估计偏差。应用 FAEF 框架到 14 个广泛使用的大型语言模型后,发现虽然之前它们被视为安全模型,但在实践中它们的对齐程度不高,突显了现有对齐方法的局限性。
Nov, 2023
通过精细调整的安全对齐技术,解决了大型语言模型在混合有害数据的数据集上进行微调后可能出现的问题,提出了一种双状态优化解决方案,引入了近端项来限制状态的偏移,实验证明这种方法可以显著提高对齐性能并保持用户任务上的准确性。
May, 2024