锁定微调大语言模型的安全性
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调,就可能危及LLMs的安全对齐性。此外,我们的研究还揭示,即使没有恶意意图,只需使用良性且常用的数据集对LLMs进行微调,也可能无意中降低其安全对齐性。这些发现表明,细调对齐的LLMs引入了新的安全风险,而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析,并倡导进一步的研究努力,以加强对齐的LLMs的自定义微调的安全协议。
Oct, 2023
我们提出了一种后安全对齐(PSA)方法,以解决目前大型语言模型(LLMs)中脆弱和不平衡的安全机制问题,并且能够提升安全性、减轻过度安全性,并在保持实用性的同时无缝集成到目标LLM中。实验表明,这种方法不仅实现了比基准方法更全面和高效的后安全对齐,还增强了骨干模型的实用性,在当前对齐的LLMs中优化了有用性和无害性之间的平衡,同时在持续PSA场景下展示了其优越性。
May, 2024
通过测量和可视化大型语言模型(LLMs)的安全景观,我们发现了一种称为“安全盆地”的普遍现象,该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准,VISAGE安全度量标准,用于通过探测安全景观来衡量LLMs微调的安全性,并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用,并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。
May, 2024
当前大型语言模型(LLM)存在的安全对齐问题容易受到攻击,我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在,并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞,包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时,我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向,并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之,我们主张未来的安全对齐应该超越前几个标记而更加深入。
Jun, 2024
安全算术是一种训练-free 的框架,可提高大型语言模型在不同场景下的安全性,通过避免有害内容和促进安全响应来确保模型的安全性,实验证明安全算术在确保生成安全内容方面优于现有方法。
Jun, 2024
通过设计合成数据生成框架,研究了三种常见的安全微调方法,即监督安全微调、直接偏好优化和遗忘学习。它们通过最小程度地转换多层感知器(MLP)权重,将不安全输入与权重的空空间相对齐,进而对输入进行聚类,确定模型是否将其视为安全。该研究还验证了这些结论在真实世界模型(Llama-2 7B和Llama-3 8B)上的可行性。
Jul, 2024
本研究解决了安全对齐的大型语言模型(LLMs)在微调阶段受到有害数据攻击的问题,现有防御方法在特定训练超参数下无法有效执行。我们提出的“解药”方法,通过在有害微调后进行一次性剪枝,去除有害权重,实现了与微调阶段训练超参数无关的安全恢复,实验结果显示其能够有效降低有害输出,同时保持下游任务的准确性。
Aug, 2024
本研究针对对齐大语言模型在安全性方面的挑战,阐明了内部参数在安全维护中的作用,揭示了识别恶意查询的关键“安全层”。提出了一种新颖的微调方法——安全部分参数微调(SPPFT),有效防止了安全性下降,同时节省计算资源,保持模型性能。
Aug, 2024
本研究针对大语言模型(LLMs)在微调过程中可能出现的安全性下降问题进行探讨,现有的安全对齐措施对于不同任务的鲁棒性不足。本文提出了一种新的多任务安全数据集,有效降低了多种任务的攻击成功率,同时确保模型的整体实用性。研究表明,微调在代码生成和翻译任务中对安全性的影响最为显著。
Sep, 2024