Booster:通过减轻有害扰动来应对大型语言模型的有害微调
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调,就可能危及LLMs的安全对齐性。此外,我们的研究还揭示,即使没有恶意意图,只需使用良性且常用的数据集对LLMs进行微调,也可能无意中降低其安全对齐性。这些发现表明,细调对齐的LLMs引入了新的安全风险,而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析,并倡导进一步的研究努力,以加强对齐的LLMs的自定义微调的安全协议。
Oct, 2023
新型的定型服务范式引入了大型语言模型(LLMs)的新攻击面:用户上传的少量有害数据可以轻易地欺骗定型,从而产生对齐破坏的模型。我们进行了实证分析,揭示了一种可能引起对齐破坏效应的有害嵌入漂移现象。在我们的研究发现的启示下,我们提出了一种名为Vaccine的扰动感知对齐技术,以减轻用户定型的安全风险。疫苗的核心思想是通过在对齐阶段逐步添加精心设计的扰动,产生不变的隐藏嵌入。这使得嵌入能够抵御定型阶段不经过消毒处理的用户数据所带来的有害扰动。我们在开源主流LLMs(例如Llama2、Opt、Vicuna)上的实验结果表明,Vaccine可以增强对抗由有害提示引起的嵌入漂移而保留对良性提示的推理能力。我们的代码可在https://github.com/git-disl/Vaccine获取。
Feb, 2024
我们提出了一种后安全对齐(PSA)方法,以解决目前大型语言模型(LLMs)中脆弱和不平衡的安全机制问题,并且能够提升安全性、减轻过度安全性,并在保持实用性的同时无缝集成到目标LLM中。实验表明,这种方法不仅实现了比基准方法更全面和高效的后安全对齐,还增强了骨干模型的实用性,在当前对齐的LLMs中优化了有用性和无害性之间的平衡,同时在持续PSA场景下展示了其优越性。
May, 2024
通过精细调整的安全对齐技术,解决了大型语言模型在混合有害数据的数据集上进行微调后可能出现的问题,提出了一种双状态优化解决方案,引入了近端项来限制状态的偏移,实验证明这种方法可以显著提高对齐性能并保持用户任务上的准确性。
May, 2024
本研究解决了安全对齐的大型语言模型(LLMs)在微调阶段受到有害数据攻击的问题,现有防御方法在特定训练超参数下无法有效执行。我们提出的“解药”方法,通过在有害微调后进行一次性剪枝,去除有害权重,实现了与微调阶段训练超参数无关的安全恢复,实验结果显示其能够有效降低有害输出,同时保持下游任务的准确性。
Aug, 2024
本研究解决了大语言模型在微调过程中存在的有害影响问题,提出了一种名为Booster的对齐阶段解决方案。该方法通过在优化过程中添加损失正则化,显著降低模型的有害评分,同时保持下游任务的性能。
Sep, 2024
本研究解决了大型语言模型微调中存在的安全隐患问题,通过提出一种新颖的安全感知微调(SAFT)框架,自动检测和移除可能有害的数据样本。实验结果显示,该框架在多种语言模型和数据污染率下有效降低了有害性,最高达27.8%,具有良好的适用性和实用价值。
Oct, 2024
本研究解决了在微调大型语言模型(LLMs)时,现有安全对齐措施不足以降低安全风险的问题。提出的SafetyLock方法通过保留基础模型的安全激活表示,实现了在微调后保持强健安全性,其最显著的发现是可以将有害指令响应率从60%减少至1%以下,提供了一种可扩展的无侵入性安全保障方案。
Oct, 2024