语言模型就是霍默·辛普森!通过任务算术重新矫正经过微调的语言模型的安全性
为了进一步推动大型语言模型的安全部署,我们开发了一个中文LLM安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了LLMs的综合安全表现,并对OpenAI GPT系列和其他知名的中文LLMs等共15个LLMs进行了安全评估并分析了一些有趣的发现,公开发布了100k个增强测试用例和LLMs生成的响应。
Apr, 2023
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调,就可能危及LLMs的安全对齐性。此外,我们的研究还揭示,即使没有恶意意图,只需使用良性且常用的数据集对LLMs进行微调,也可能无意中降低其安全对齐性。这些发现表明,细调对齐的LLMs引入了新的安全风险,而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析,并倡导进一步的研究努力,以加强对齐的LLMs的自定义微调的安全协议。
Oct, 2023
通过将自然语言输入转化为代码输入,CodeAttack框架揭示了大型语言模型的安全泛化性问题,并发现了代码领域中的新安全风险,需要更健壮的安全对齐算法来匹配大型语言模型的代码功能。
Mar, 2024
通过子空间导向模型融合(SOMF)的安全重新对齐框架,本研究旨在将初始对齐模型和当前精细调整后的模型的安全能力结合到重新对齐的模型中,验证了该框架在维持安全性的同时不明显损害下游任务的性能。
May, 2024
我们提出了一种后安全对齐(PSA)方法,以解决目前大型语言模型(LLMs)中脆弱和不平衡的安全机制问题,并且能够提升安全性、减轻过度安全性,并在保持实用性的同时无缝集成到目标LLM中。实验表明,这种方法不仅实现了比基准方法更全面和高效的后安全对齐,还增强了骨干模型的实用性,在当前对齐的LLMs中优化了有用性和无害性之间的平衡,同时在持续PSA场景下展示了其优越性。
May, 2024
通过测量和可视化大型语言模型(LLMs)的安全景观,我们发现了一种称为“安全盆地”的普遍现象,该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准,VISAGE安全度量标准,用于通过探测安全景观来衡量LLMs微调的安全性,并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用,并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。
May, 2024
通过精细调整的安全对齐技术,解决了大型语言模型在混合有害数据的数据集上进行微调后可能出现的问题,提出了一种双状态优化解决方案,引入了近端项来限制状态的偏移,实验证明这种方法可以显著提高对齐性能并保持用户任务上的准确性。
May, 2024
安全算术是一种训练-free 的框架,可提高大型语言模型在不同场景下的安全性,通过避免有害内容和促进安全响应来确保模型的安全性,实验证明安全算术在确保生成安全内容方面优于现有方法。
Jun, 2024
本研究针对大语言模型(LLMs)在微调过程中可能出现的安全性下降问题进行探讨,现有的安全对齐措施对于不同任务的鲁棒性不足。本文提出了一种新的多任务安全数据集,有效降低了多种任务的攻击成功率,同时确保模型的整体实用性。研究表明,微调在代码生成和翻译任务中对安全性的影响最为显著。
Sep, 2024
本研究解决了在微调大型语言模型(LLMs)时,现有安全对齐措施不足以降低安全风险的问题。提出的SafetyLock方法通过保留基础模型的安全激活表示,实现了在微调后保持强健安全性,其最显著的发现是可以将有害指令响应率从60%减少至1%以下,提供了一种可扩展的无侵入性安全保障方案。
Oct, 2024