可控安全对齐：推理时间适应多样化安全需求

Oct, 2024

可控安全对齐：推理时间适应多样化安全需求

Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

Jingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme

TL;DR本研究解决了大型语言模型在安全对齐中的灵活性不足问题，特别是针对不同文化和用户安全需求的单一静态标准的局限性。提出的可控安全对齐（CoSA）框架允许用户在推理时根据安全配置动态调整模型行为，避免了重新训练的需要。研究结果表明，CoSAlign显著提升了模型的可控性，使其更好地代表和适应多元化的人类价值观，从而增强了模型的实用性。

Abstract

The current paradigm for Safety Alignment of Large Language Models (LLMs) follows a one-size-fits-all approach: the model refuses to interact with any content deemed unsafe by the model provider. This approach la

发现论文，激发创造

通过话语链安全对齐红队大型语言模型

基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Aug, 2023

微调对齐语言模型牺牲了安全性，即使用户并无此意!

通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为，但当将微调权限扩展给最终用户时，它们却无法覆盖安全风险。我们的红队研究发现，只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调，就可能危及LLMs的安全对齐性。此外，我们的研究还揭示，即使没有恶意意图，只需使用良性且常用的数据集对LLMs进行微调，也可能无意中降低其安全对齐性。这些发现表明，细调对齐的LLMs引入了新的安全风险，而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析，并倡导进一步的研究努力，以加强对齐的LLMs的自定义微调的安全协议。

Oct, 2023

通过代码探索大型语言模型的安全泛化挑战

通过将自然语言输入转化为代码输入，CodeAttack框架揭示了大型语言模型的安全泛化性问题，并发现了代码领域中的新安全风险，需要更健壮的安全对齐算法来匹配大型语言模型的代码功能。

Mar, 2024

确保安全和高质量的输出：面向语言模型的指南库方法

为了解决大型语言模型存在的偏见内容生成和隐私问题，研究引入了Guide-Align方法，该方法通过安全训练模型识别潜在风险并建立指南和模型库，然后用于新输入的相关指导，以确保安全和高质量输出，还可以通过精调模型来优化对多样输入的适应性和对指南库的全面性。实验证明该方法显著提高了大型语言模型的安全性和质量，尤其是在13亿参数下，优于GPT-3.5-turbo和GPT-4的对齐能力。

Mar, 2024

构建安全负责的大语言模型--一个综合框架

为了提高语言生成模型的安全性，我们引入了安全可靠的大型语言模型SR$_{ ext{LLM}}$，通过使用细致标注的数据集和多种方法来识别潜在的不安全内容，并生成无害的变体。经过对多个数据集的测试，我们观察到不安全内容的生成显著减少，同时在安全内容的生成方面也有明显的改进。我们的工作详细描述了SR$_{ ext{LLM}}$的微调过程，并通过社区参与来推动LMM的负责任推进。

Apr, 2024

大规模语言模型的全面高效后编程安全对齐

我们提出了一种后安全对齐（PSA）方法，以解决目前大型语言模型（LLMs）中脆弱和不平衡的安全机制问题，并且能够提升安全性、减轻过度安全性，并在保持实用性的同时无缝集成到目标LLM中。实验表明，这种方法不仅实现了比基准方法更全面和高效的后安全对齐，还增强了骨干模型的实用性，在当前对齐的LLMs中优化了有用性和无害性之间的平衡，同时在持续PSA场景下展示了其优越性。

May, 2024

在大型语言模型的优化过程中测量风险：导航安全景观

通过测量和可视化大型语言模型（LLMs）的安全景观，我们发现了一种称为“安全盆地”的普遍现象，该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准，VISAGE安全度量标准，用于通过探测安全景观来衡量LLMs微调的安全性，并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用，并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。

May, 2024

安全算法：通过控制参数和激活函数在测试时间对齐语言模型的安全性

安全算术是一种训练-free 的框架，可提高大型语言模型在不同场景下的安全性，通过避免有害内容和促进安全响应来确保模型的安全性，实验证明安全算术在确保生成安全内容方面优于现有方法。

Jun, 2024

SafeInfer：大型语言模型的上下文自适应解码时间安全对齐

通过SafeInfer方法中的安全放大和安全引导解码阶段以及HarmEval评估，此篇研究论文旨在解决安全性不足、知识编辑引入风险等问题，提供安全的回应输出并遵守伦理指南。

Jun, 2024

在大型语言模型中寻找安全神经元

我们通过从机理解释的角度探索安全对齐的内在机制，重点是识别和分析大语言模型中负责安全行为的安全神经元。我们提出了生成时激活对比来定位这些神经元，并提出了动态激活修复来评估其因果效应。多个最新的大语言模型的实验证明：（1）安全神经元是稀疏而有效的。只通过对大约5％的神经元进行干预，我们可以恢复90％的安全性能。（2）安全神经元编码可转移的机制。它们在不同的红队测试数据集上表现出一致的有效性。安全神经元的发现还解释了“对齐税”的现象。我们观察到，安全和有用的关键神经元明显重叠，但它们对共享神经元的激活模式有不同要求。此外，我们展示了在生成之前使用安全神经元检测不安全输出的应用。我们的发现可能促进进一步研究理解大语言模型的对齐。源代码将公开发布以促进未来的研究。

Jun, 2024