基于大型语言模型的决策制定中的后门攻击探索

May, 2024

基于大型语言模型的决策制定中的后门攻击探索

Exploring Backdoor Attacks against Large Language Model-based Decision Making

Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang...

TL;DR这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击，系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言，作者提出了三种攻击机制和相应的后门优化方法，以攻击 LLM 决策管道中的不同组件：单词注入、场景操纵和知识注入。作者进行了广泛的实验，并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后，作者批评了自己提出方法的优点和缺点，突出了 LLM 在决策任务中固有的漏洞，并评估了保护 LLM 决策系统的潜在防御方法。

Abstract

large language models (LLMs) have shown significant promise in decision-making tasks when fine-tuned on specific applications, leveraging their inherent common sense and reasoning abilities learned from vast amounts of data. However, these systems are exposed to substantial safety and

large language models backdoor attacks decision-making systems word injection scenario manipulation

发现论文，激发创造

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

警惕您的代理人！调查针对基于 LLM 的代理人的后门威胁

借助大型语言模型（LLMs）的快速发展，已经开发出了基于 LLM 的代理程序，用于处理各种实际应用，包括金融、医疗和购物等。然而，目前 LLM-based 代理的安全问题尚未得到充分研究。本研究首先调查了一种典型的安全威胁，即 backdoor 攻击，对 LLM-based 代理进行了初步研究，并提出了相应的数据污染机制来实施代理程序的 backdoor 攻击。广泛的实验结果显示，LLM-based 代理严重受到 backdoor 攻击的影响，表明迫切需要进一步研究防御 LLM-based 代理的 backdoor 攻击。

Feb, 2024

探索聊天模型的后门漏洞

最近的研究表明，大型语言模型（LLMs）容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法，通过在不同轮次的用户输入中分发多个触发场景，并只在历史对话中出现了所有触发场景时激活后门，从而实现了高攻击成功率。

Apr, 2024

BadEdit：通过模型编辑对大型语言模型设置后门

通过将后门注入问题转化为一个轻量级知识编辑问题，BadEdit 攻击框架直接改变 LLM 参数以引入后门，从而在注入技术的多个方面上具有优越性。

Mar, 2024

大型语言模型的复合后门攻击

在这篇论文中，我们通过后门攻击的视角探索了大型语言模型的脆弱性。与现有的后门攻击不同，我们的组合后门攻击（CBA）将多个触发关键词分散在不同的提示组件中，这使得攻击更加隐蔽。我们的实验证明 CBA 在自然语言处理和多模态任务中都是有效的。我们的工作强调了对基础大型语言模型的可信度进行增加安全性研究的必要性。

Oct, 2023

BadAgent：在 LLM 代理中插入和激活后门攻击

利用大型语言模型构建智能代理存在潜在的后门攻击风险，即使在可信数据上进行微调也无法防御，这可能是第一项关于带有外部工具权限的大型语言模型代理的研究。

Jun, 2024

跨语言转移的困境：通过指令调整在 LLMs 中的后门攻击的跨语言可迁移性

我们的研究重点关注跨语言背门攻击对多语言 LLM 的影响，特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明，我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中非常有效，攻击成功率高，在多种场景中超过 95%。令人担忧的是，我们的发现还表明，较大的模型对可转移的跨语言背门攻击更易受攻击，这也适用于主要在英语数据上进行预训练的 LLM，如 Llama2、Llama3 和 Gemma。此外，我们的实验表明，即使经过改述，触发器仍然有效，背门机制在 25 种语言的跨语言响应环境中证明高度有效，攻击成功率平均达到 50%。我们的研究旨在强调当前多语言 LLM 存在的漏洞和重大安全风险，凸显有针对性的安全措施的迫切需求。

Apr, 2024

快速采用，隐含风险：大型语言模型定制的双重影响

我们的研究论文首次提出了针对与不受信任的定制大型语言模型（例如 GPTs）集成的应用程序的指令后门攻击，这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中，并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型（如 GPTs）的脆弱性和潜在风险。

Feb, 2024

大型语言模型更具优势：探索生成式干净标签背门攻击对文本分类器的影响

我们研究了后门攻击，使用语言模型自动插入多样化的基于样式的触发器到文本中，并提出了一种毒素选择技术来改善攻击的效果，同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻击成功率，且几乎不需要训练而且非常有效。

Oct, 2023

重访大型视觉语言模型的后门攻击

使用指令调优增强大规模视觉语言模型 (LVLMs) 会提高安全风险，因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优 LVLMs 期间后门攻击的普适性，揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性，我们的研究结果表明，攻击的普适性与后门触发器与特定图像 / 模型的不相关性以及触发器模式的偏好相关。此外，我们基于以上关键观察修改了现有的后门攻击方法，在跨域场景的普适性方面取得了显著改进 (+86% 攻击成功率)。值得注意的是，即使没有访问指令数据集，也可以使用极低的污染率 (0.2%) 成功毒化多模态指令集，攻击成功率超过 97%。本研究强调即使是简单的传统后门策略也对 LVLMs 构成严重威胁，需要更多关注和深入研究。

Jun, 2024