面向大型语言模型的推理时类别安全引导
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调,就可能危及LLMs的安全对齐性。此外,我们的研究还揭示,即使没有恶意意图,只需使用良性且常用的数据集对LLMs进行微调,也可能无意中降低其安全对齐性。这些发现表明,细调对齐的LLMs引入了新的安全风险,而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析,并倡导进一步的研究努力,以加强对齐的LLMs的自定义微调的安全协议。
Oct, 2023
通过研究使用安全提示的大型语言模型的工作机制,本文发现安全提示可以在模型表示空间中明显区分有害和无害查询,从而提出了一种名为Directed Representation Optimization(DRO)的方法,通过优化安全提示,显著改善了模型的安全性能。
Jan, 2024
通过将自然语言输入转化为代码输入,CodeAttack框架揭示了大型语言模型的安全泛化性问题,并发现了代码领域中的新安全风险,需要更健壮的安全对齐算法来匹配大型语言模型的代码功能。
Mar, 2024
通过测量和可视化大型语言模型(LLMs)的安全景观,我们发现了一种称为“安全盆地”的普遍现象,该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准,VISAGE安全度量标准,用于通过探测安全景观来衡量LLMs微调的安全性,并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用,并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。
May, 2024
安全算术是一种训练-free 的框架,可提高大型语言模型在不同场景下的安全性,通过避免有害内容和促进安全响应来确保模型的安全性,实验证明安全算术在确保生成安全内容方面优于现有方法。
Jun, 2024
我们通过从机理解释的角度探索安全对齐的内在机制,重点是识别和分析大语言模型中负责安全行为的安全神经元。我们提出了生成时激活对比来定位这些神经元,并提出了动态激活修复来评估其因果效应。多个最新的大语言模型的实验证明:(1)安全神经元是稀疏而有效的。只通过对大约5%的神经元进行干预,我们可以恢复90%的安全性能。 (2)安全神经元编码可转移的机制。它们在不同的红队测试数据集上表现出一致的有效性。安全神经元的发现还解释了“对齐税”的现象。我们观察到,安全和有用的关键神经元明显重叠,但它们对共享神经元的激活模式有不同要求。此外,我们展示了在生成之前使用安全神经元检测不安全输出的应用。我们的发现可能促进进一步研究理解大语言模型的对齐。源代码将公开发布以促进未来的研究。
Jun, 2024
本研究针对大语言模型(LLMs)在微调过程中可能出现的安全性下降问题进行探讨,现有的安全对齐措施对于不同任务的鲁棒性不足。本文提出了一种新的多任务安全数据集,有效降低了多种任务的攻击成功率,同时确保模型的整体实用性。研究表明,微调在代码生成和翻译任务中对安全性的影响最为显著。
Sep, 2024
本研究解决了大型语言模型在安全对齐中的灵活性不足问题,特别是针对不同文化和用户安全需求的单一静态标准的局限性。提出的可控安全对齐(CoSA)框架允许用户在推理时根据安全配置动态调整模型行为,避免了重新训练的需要。研究结果表明,CoSAlign显著提升了模型的可控性,使其更好地代表和适应多元化的人类价值观,从而增强了模型的实用性。
Oct, 2024
本研究解决了现有研究忽视多头注意力机制对大语言模型(LLM)安全性的影响的问题。我们提出了一种新颖的指标——安全头重要性评分(Ships),用以评估每个注意力头对模型安全性的贡献。研究发现,特定的安全注意力头在模型的安全性中起着重要作用,其缺失会显著增加模型生成有害内容的风险。
Oct, 2024