对大型语言模型的后门攻击和防御调研：对安全措施的影响

Jun, 2024

对大型语言模型的后门攻击和防御调研：对安全措施的影响

A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures

Shuai Zhao, Meihuizi Jia, Zhongliang Guo, Leilei Gan, Jie Fu...

TL;DR该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Abstract

The large language models (LLMs), which bridge the gap between human language understanding and complex problem-solving, achieve state-of-the-art performance on several nlp tasks, particularly in few-shot and zer

large language models backdoor attacks fine-tuning methods security vulnerabilities nlp tasks

发现论文，激发创造

基于大型语言模型的决策制定中的后门攻击探索

这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击，系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言，作者提出了三种攻击机制和相应的后门优化方法，以攻击 LLM 决策管道中的不同组件：单词注入、场景操纵和知识注入。作者进行了广泛的实验，并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后，作者批评了自己提出方法的优点和缺点，突出了 LLM 在决策任务中固有的漏洞，并评估了保护 LLM 决策系统的潜在防御方法。

May, 2024

探索聊天模型的后门漏洞

最近的研究表明，大型语言模型（LLMs）容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法，通过在不同轮次的用户输入中分发多个触发场景，并只在历史对话中出现了所有触发场景时激活后门，从而实现了高攻击成功率。

Apr, 2024

警惕您的代理人！调查针对基于 LLM 的代理人的后门威胁

借助大型语言模型（LLMs）的快速发展，已经开发出了基于 LLM 的代理程序，用于处理各种实际应用，包括金融、医疗和购物等。然而，目前 LLM-based 代理的安全问题尚未得到充分研究。本研究首先调查了一种典型的安全威胁，即 backdoor 攻击，对 LLM-based 代理进行了初步研究，并提出了相应的数据污染机制来实施代理程序的 backdoor 攻击。广泛的实验结果显示，LLM-based 代理严重受到 backdoor 攻击的影响，表明迫切需要进一步研究防御 LLM-based 代理的 backdoor 攻击。

Feb, 2024

跨语言转移的困境：通过指令调整在 LLMs 中的后门攻击的跨语言可迁移性

我们的研究重点关注跨语言背门攻击对多语言 LLM 的影响，特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明，我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中非常有效，攻击成功率高，在多种场景中超过 95%。令人担忧的是，我们的发现还表明，较大的模型对可转移的跨语言背门攻击更易受攻击，这也适用于主要在英语数据上进行预训练的 LLM，如 Llama2、Llama3 和 Gemma。此外，我们的实验表明，即使经过改述，触发器仍然有效，背门机制在 25 种语言的跨语言响应环境中证明高度有效，攻击成功率平均达到 50%。我们的研究旨在强调当前多语言 LLM 存在的漏洞和重大安全风险，凸显有针对性的安全措施的迫切需求。

Apr, 2024

自然语言处理中后门攻击与防御的调查

本文综述了深度学习在自然语言处理中的应用，分析了训练数据和模型面临的公开风险，着重探讨了后门攻击的前沿进展及其防御对策，并总结了基准数据集及其存在的问题，旨在设计更可靠的系统以保护模型安全。

Nov, 2022

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

在防御系统中的提示注入攻击

通过三层防御机制，本研究调查了对大型语言模型的黑盒攻击方法，分析了这些攻击所带来的挑战和重要性，评估了现有攻击和防御方法的有效性和适用性，并特别关注了黑盒攻击的检测算法，用于识别语言模型中的危险漏洞和获取敏感信息，提出了一种对大型语言模型进行黑盒攻击的漏洞检测方法和防御策略的开发。

Jun, 2024

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

重访大型视觉语言模型的后门攻击

使用指令调优增强大规模视觉语言模型 (LVLMs) 会提高安全风险，因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优 LVLMs 期间后门攻击的普适性，揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性，我们的研究结果表明，攻击的普适性与后门触发器与特定图像 / 模型的不相关性以及触发器模式的偏好相关。此外，我们基于以上关键观察修改了现有的后门攻击方法，在跨域场景的普适性方面取得了显著改进 (+86% 攻击成功率)。值得注意的是，即使没有访问指令数据集，也可以使用极低的污染率 (0.2%) 成功毒化多模态指令集，攻击成功率超过 97%。本研究强调即使是简单的传统后门策略也对 LVLMs 构成严重威胁，需要更多关注和深入研究。

Jun, 2024

BadAgent：在 LLM 代理中插入和激活后门攻击

利用大型语言模型构建智能代理存在潜在的后门攻击风险，即使在可信数据上进行微调也无法防御，这可能是第一项关于带有外部工具权限的大型语言模型代理的研究。

Jun, 2024