大规模语言模型的全面高效后编程安全对齐
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调,就可能危及LLMs的安全对齐性。此外,我们的研究还揭示,即使没有恶意意图,只需使用良性且常用的数据集对LLMs进行微调,也可能无意中降低其安全对齐性。这些发现表明,细调对齐的LLMs引入了新的安全风险,而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析,并倡导进一步的研究努力,以加强对齐的LLMs的自定义微调的安全协议。
Oct, 2023
为了解决大型语言模型存在的偏见内容生成和隐私问题,研究引入了Guide-Align方法,该方法通过安全训练模型识别潜在风险并建立指南和模型库,然后用于新输入的相关指导,以确保安全和高质量输出,还可以通过精调模型来优化对多样输入的适应性和对指南库的全面性。实验证明该方法显著提高了大型语言模型的安全性和质量,尤其是在13亿参数下,优于GPT-3.5-turbo和GPT-4的对齐能力。
Mar, 2024
为了提高语言生成模型的安全性,我们引入了安全可靠的大型语言模型SR$_{ ext{LLM}}$,通过使用细致标注的数据集和多种方法来识别潜在的不安全内容,并生成无害的变体。经过对多个数据集的测试,我们观察到不安全内容的生成显著减少,同时在安全内容的生成方面也有明显的改进。我们的工作详细描述了SR$_{ ext{LLM}}$的微调过程,并通过社区参与来推动LMM的负责任推进。
Apr, 2024
通过测量和可视化大型语言模型(LLMs)的安全景观,我们发现了一种称为“安全盆地”的普遍现象,该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准,VISAGE安全度量标准,用于通过探测安全景观来衡量LLMs微调的安全性,并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用,并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。
May, 2024
通过精细调整的安全对齐技术,解决了大型语言模型在混合有害数据的数据集上进行微调后可能出现的问题,提出了一种双状态优化解决方案,引入了近端项来限制状态的偏移,实验证明这种方法可以显著提高对齐性能并保持用户任务上的准确性。
May, 2024
当前大型语言模型(LLM)存在的安全对齐问题容易受到攻击,我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在,并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞,包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时,我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向,并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之,我们主张未来的安全对齐应该超越前几个标记而更加深入。
Jun, 2024
安全算术是一种训练-free 的框架,可提高大型语言模型在不同场景下的安全性,通过避免有害内容和促进安全响应来确保模型的安全性,实验证明安全算术在确保生成安全内容方面优于现有方法。
Jun, 2024
本研究介绍了一种混合语言查询-回复方案,名为多语言融合,用于评估各种最先进的LLMs(例如GPT-4o、GPT-3.5、Llama3)在复杂的多语言环境下的安全对齐性。研究结果表明,没有经过精心制作的提示模板,多语言融合显著放大了恶意查询的危害,导致LLMs在安全对齐方面的绕过率显著增加。此外,多语言融合的性能在内在语言属性上有显著差异,不同形态和不同语系的语言更容易规避安全对齐。这些发现强调了在复杂的多语言环境下评估LLMs并开发相应的安全对齐策略以适应其优越的跨语言泛化能力的必要性。
Jul, 2024
本研究解决了大型语言模型在安全对齐中的灵活性不足问题,特别是针对不同文化和用户安全需求的单一静态标准的局限性。提出的可控安全对齐(CoSA)框架允许用户在推理时根据安全配置动态调整模型行为,避免了重新训练的需要。研究结果表明,CoSAlign显著提升了模型的可控性,使其更好地代表和适应多元化的人类价值观,从而增强了模型的实用性。
Oct, 2024
本研究解决了在微调大型语言模型(LLMs)时,现有安全对齐措施不足以降低安全风险的问题。提出的SafetyLock方法通过保留基础模型的安全激活表示,实现了在微调后保持强健安全性,其最显著的发现是可以将有害指令响应率从60%减少至1%以下,提供了一种可扩展的无侵入性安全保障方案。
Oct, 2024