面向大型语言模型的推理时类别安全引导

Oct, 2024

面向大型语言模型的推理时类别安全引导

Towards Inference-time Category-wise Safety Steering for Large Language Models

Amrita Bhattacharjee, Shaona Ghosh, Traian Rebedea, Christopher Parisien

TL;DR本研究解决了大型语言模型（LLMs）在安全对齐方面的不足，通过推理时的方法进行安全引导。论文提出了一种新颖的方法，通过类别特定的引导向量实现更精细的控制，并开发出提取有效引导向量的复杂技术，从而在确保文本质量的同时，增强模型输出的安全性。研究结果表明，该方法在多个LLM和数据集上均取得了显著效果，对未来的安全引导研究具有重要意义。

Abstract

While Large Language Models (LLMs) have seen unprecedented advancements in capabilities and applications across a variety of use-cases, Safety Alignment of these models is still an area of active research. The fr

发现论文，激发创造

微调对齐语言模型牺牲了安全性，即使用户并无此意!

通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为，但当将微调权限扩展给最终用户时，它们却无法覆盖安全风险。我们的红队研究发现，只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调，就可能危及LLMs的安全对齐性。此外，我们的研究还揭示，即使没有恶意意图，只需使用良性且常用的数据集对LLMs进行微调，也可能无意中降低其安全对齐性。这些发现表明，细调对齐的LLMs引入了新的安全风险，而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析，并倡导进一步的研究努力，以加强对齐的LLMs的自定义微调的安全协议。

Oct, 2023

通过有向表示优化的提示驱动的LLM保护

通过研究使用安全提示的大型语言模型的工作机制，本文发现安全提示可以在模型表示空间中明显区分有害和无害查询，从而提出了一种名为Directed Representation Optimization(DRO)的方法，通过优化安全提示，显著改善了模型的安全性能。

Jan, 2024

通过代码探索大型语言模型的安全泛化挑战

通过将自然语言输入转化为代码输入，CodeAttack框架揭示了大型语言模型的安全泛化性问题，并发现了代码领域中的新安全风险，需要更健壮的安全对齐算法来匹配大型语言模型的代码功能。

Mar, 2024

大型语言模型的因果可解释弹道

LLMGuardaril是一个新型的框架，结合因果分析和对抗学习，以获取大型语言模型中的无偏导向表示，从而将其引导到预期的属性，同时减少偏见。

May, 2024

在大型语言模型的优化过程中测量风险：导航安全景观

通过测量和可视化大型语言模型（LLMs）的安全景观，我们发现了一种称为“安全盆地”的普遍现象，该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准，VISAGE安全度量标准，用于通过探测安全景观来衡量LLMs微调的安全性，并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用，并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。

May, 2024

安全算法：通过控制参数和激活函数在测试时间对齐语言模型的安全性

安全算术是一种训练-free 的框架，可提高大型语言模型在不同场景下的安全性，通过避免有害内容和促进安全响应来确保模型的安全性，实验证明安全算术在确保生成安全内容方面优于现有方法。

Jun, 2024

在大型语言模型中寻找安全神经元

我们通过从机理解释的角度探索安全对齐的内在机制，重点是识别和分析大语言模型中负责安全行为的安全神经元。我们提出了生成时激活对比来定位这些神经元，并提出了动态激活修复来评估其因果效应。多个最新的大语言模型的实验证明：（1）安全神经元是稀疏而有效的。只通过对大约5％的神经元进行干预，我们可以恢复90％的安全性能。（2）安全神经元编码可转移的机制。它们在不同的红队测试数据集上表现出一致的有效性。安全神经元的发现还解释了“对齐税”的现象。我们观察到，安全和有用的关键神经元明显重叠，但它们对共享神经元的激活模式有不同要求。此外，我们展示了在生成之前使用安全神经元检测不安全输出的应用。我们的发现可能促进进一步研究理解大语言模型的对齐。源代码将公开发布以促进未来的研究。

Jun, 2024

多任务混乱：揭示并缓解大语言模型中的安全缺口

本研究针对大语言模型（LLMs）在微调过程中可能出现的安全性下降问题进行探讨，现有的安全对齐措施对于不同任务的鲁棒性不足。本文提出了一种新的多任务安全数据集，有效降低了多种任务的攻击成功率，同时确保模型的整体实用性。研究表明，微调在代码生成和翻译任务中对安全性的影响最为显著。

Sep, 2024

可控安全对齐：推理时间适应多样化安全需求

本研究解决了大型语言模型在安全对齐中的灵活性不足问题，特别是针对不同文化和用户安全需求的单一静态标准的局限性。提出的可控安全对齐（CoSA）框架允许用户在推理时根据安全配置动态调整模型行为，避免了重新训练的需要。研究结果表明，CoSAlign显著提升了模型的可控性，使其更好地代表和适应多元化的人类价值观，从而增强了模型的实用性。

Oct, 2024

大语言模型安全性中注意力头的作用

本研究解决了现有研究忽视多头注意力机制对大语言模型（LLM）安全性的影响的问题。我们提出了一种新颖的指标——安全头重要性评分（Ships），用以评估每个注意力头对模型安全性的贡献。研究发现，特定的安全注意力头在模型的安全性中起着重要作用，其缺失会显著增加模型生成有害内容的风险。

Oct, 2024