大语言模型安全性中注意力头的作用

Oct, 2024

大语言模型安全性中注意力头的作用

On the Role of Attention Heads in Large Language Model Safety

Zhenhong Zhou, Haiyang Yu, Xinghua Zhang, Rongwu Xu, Fei Huang...

TL;DR本研究解决了现有研究忽视多头注意力机制对大语言模型（LLM）安全性的影响的问题。我们提出了一种新颖的指标——安全头重要性评分（Ships），用以评估每个注意力头对模型安全性的贡献。研究发现，特定的安全注意力头在模型的安全性中起着重要作用，其缺失会显著增加模型生成有害内容的风险。

Abstract

Large Language Models (LLMs) achieve state-of-the-art performance on multiple language tasks, yet their safety guardrails can be circumvented, leading to harmful generations. In light of this, recent research on Safety

发现论文，激发创造

所有语言都重要：关于大型语言模型的多语言安全性

我们建立了第一个多语言安全基准（XSafety）用于大型语言模型的开发和部署，在实验中发现所有的大型语言模型对非英语查询的不安全回复明显增多，为此我们提出了几种简单有效的提示方法，从而显著提高ChatGPT的多语言安全性。

Oct, 2023

微调对齐语言模型牺牲了安全性，即使用户并无此意!

通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为，但当将微调权限扩展给最终用户时，它们却无法覆盖安全风险。我们的红队研究发现，只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调，就可能危及LLMs的安全对齐性。此外，我们的研究还揭示，即使没有恶意意图，只需使用良性且常用的数据集对LLMs进行微调，也可能无意中降低其安全对齐性。这些发现表明，细调对齐的LLMs引入了新的安全风险，而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析，并倡导进一步的研究努力，以加强对齐的LLMs的自定义微调的安全协议。

Oct, 2023

通过代码探索大型语言模型的安全泛化挑战

通过将自然语言输入转化为代码输入，CodeAttack框架揭示了大型语言模型的安全泛化性问题，并发现了代码领域中的新安全风险，需要更健壮的安全对齐算法来匹配大型语言模型的代码功能。

Mar, 2024

减轻大型语言模型中的夸大安全性

通过使用多种提示策略，我们成功地减少了大型语言模型中的过度安全行为，这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示，从而使模型能够在拒绝不安全的输入的同时保持有用性。

May, 2024

在大型语言模型的优化过程中测量风险：导航安全景观

通过测量和可视化大型语言模型（LLMs）的安全景观，我们发现了一种称为“安全盆地”的普遍现象，该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准，VISAGE安全度量标准，用于通过探测安全景观来衡量LLMs微调的安全性，并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用，并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。

May, 2024

在大型语言模型中寻找安全神经元

我们通过从机理解释的角度探索安全对齐的内在机制，重点是识别和分析大语言模型中负责安全行为的安全神经元。我们提出了生成时激活对比来定位这些神经元，并提出了动态激活修复来评估其因果效应。多个最新的大语言模型的实验证明：（1）安全神经元是稀疏而有效的。只通过对大约5％的神经元进行干预，我们可以恢复90％的安全性能。（2）安全神经元编码可转移的机制。它们在不同的红队测试数据集上表现出一致的有效性。安全神经元的发现还解释了“对齐税”的现象。我们观察到，安全和有用的关键神经元明显重叠，但它们对共享神经元的激活模式有不同要求。此外，我们展示了在生成之前使用安全神经元检测不安全输出的应用。我们的发现可能促进进一步研究理解大语言模型的对齐。源代码将公开发布以促进未来的研究。

Jun, 2024

大型语言模型的注意头：综述

本研究针对大型语言模型（LLMs）作为黑箱系统的现状，探讨它们内部机制中的注意头，通过四阶段框架分析人类思维过程，旨在揭示推理瓶颈的本质。结果表明，特定的注意头在推理过程中扮演了关键角色，为LMMs的进一步优化提供了新思路。

Sep, 2024

大型语言模型的注意力头：一项综述

本研究针对大型语言模型（LLMs）作为黑箱系统所导致的推理瓶颈，着重分析注意力头的内部机制。通过将人类思维过程提炼为四个阶段的框架，系统性地回顾现有研究，识别和分类特定注意力头的功能，从而为理解LLMs的推理过程提供新的视角与方法。

Sep, 2024

多任务混乱：揭示并缓解大语言模型中的安全缺口

本研究针对大语言模型（LLMs）在微调过程中可能出现的安全性下降问题进行探讨，现有的安全对齐措施对于不同任务的鲁棒性不足。本文提出了一种新的多任务安全数据集，有效降低了多种任务的攻击成功率，同时确保模型的整体实用性。研究表明，微调在代码生成和翻译任务中对安全性的影响最为显著。

Sep, 2024

面向大型语言模型的推理时类别安全引导

本研究解决了大型语言模型（LLMs）在安全对齐方面的不足，通过推理时的方法进行安全引导。论文提出了一种新颖的方法，通过类别特定的引导向量实现更精细的控制，并开发出提取有效引导向量的复杂技术，从而在确保文本质量的同时，增强模型输出的安全性。研究结果表明，该方法在多个LLM和数据集上均取得了显著效果，对未来的安全引导研究具有重要意义。

Oct, 2024