后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐

Nov, 2023

后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐

Backdoor Activation Attack: Attack Large Language Models using Activation Steering for Safety-Alignment

Haoran Wang, Kai Shu

TL;DR通过向大型语言模型注入木马激活向量，我们提出了一种名为后门激活攻击的新型攻击框架，使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵，该方法在主要的对齐任务上表现出高度的有效性，并且几乎不会给攻击效率增加任何开销，同时讨论了对抗此类激活攻击的潜在对策。

Abstract

To ensure ai safety, instruction-tuned large language models (LLMs) are specifically trained to ensure alignment, which refers to making models behave in accordance with human intentions. While these models have

ai safety large language models safety alignment backdoor activation attack activation attacks

发现论文，激发创造

大规模语言模型背景注入中的隐蔽而持久的不对齐

通过背门注入，在大型语言模型上进行隐秘而持续的非对准操作，可以成功通过安全评估，同时对抗重新对齐防御。

Nov, 2023

通过概念激活向量揭示开放源代码 LLMs 中的安全风险

通过概念模型解释从大规模语言模型中提取安全概念激活向量（SCAVs），我们介绍了一种 LLM 攻击方法，可以对经过充分安全对齐的 LLMs 如 LLaMA-2 进行高效攻击，达到近 100% 的攻击成功率，表明即使经过彻底的安全对齐，LLMs 在公开发布后仍可能对社会造成潜在风险。

Apr, 2024

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

基于大型语言模型的决策制定中的后门攻击探索

这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击，系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言，作者提出了三种攻击机制和相应的后门优化方法，以攻击 LLM 决策管道中的不同组件：单词注入、场景操纵和知识注入。作者进行了广泛的实验，并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后，作者批评了自己提出方法的优点和缺点，突出了 LLM 在决策任务中固有的漏洞，并评估了保护 LLM 决策系统的潜在防御方法。

May, 2024

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023

警惕您的代理人！调查针对基于 LLM 的代理人的后门威胁

借助大型语言模型（LLMs）的快速发展，已经开发出了基于 LLM 的代理程序，用于处理各种实际应用，包括金融、医疗和购物等。然而，目前 LLM-based 代理的安全问题尚未得到充分研究。本研究首先调查了一种典型的安全威胁，即 backdoor 攻击，对 LLM-based 代理进行了初步研究，并提出了相应的数据污染机制来实施代理程序的 backdoor 攻击。广泛的实验结果显示，LLM-based 代理严重受到 backdoor 攻击的影响，表明迫切需要进一步研究防御 LLM-based 代理的 backdoor 攻击。

Feb, 2024

探索聊天模型的后门漏洞

最近的研究表明，大型语言模型（LLMs）容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法，通过在不同轮次的用户输入中分发多个触发场景，并只在历史对话中出现了所有触发场景时激活后门，从而实现了高攻击成功率。

Apr, 2024

捕捉具有激活的 LLM 任务漂移

通过扫描和分析语言模型的激活状态，我们提出了两种探测方法，发现仅使用线性分类器即可在分布外测试集上准确检测出指令漂移，且其泛化能力出乎意料地适用于未知任务领域，如提示注入、越狱和恶意指令。我们的方法无需对语言模型进行任何修改或生成文本，最大程度地实现了可部署性和成本效益，并避免了对不可靠模型输出的依赖。为了促进基于激活状态的任务检查、解码和可解释性的进一步研究，我们将发布我们的大规模任务跟踪工具包，其中包括超过 50 万个实例的数据集，四种 SoTA 语言模型的表示以及检查工具。

Jun, 2024

采用剩余流激活分析对大型语言模型进行防御

借助大型语言模型（LLMs），我们提出了一种创新的防御策略，通过对 LLM 的 Transformer 层之间的残余激活分析，实现对恶意输入的攻击提示分类的高准确性，同时集成安全微调技术提升模型的鲁棒性和提高检测和缓解对抗性输入的能力。

Jun, 2024

利用后门增强对齐来缓解微调越狱攻击

通过使用少量的安全示例，我们提出了一种后门增强安全对齐方法，以有效防御偏好微调调优攻击，同时不损害微调任务的性能。

Feb, 2024