链路审查：针对大型语言模型的后门攻击检测

Jun, 2024

链路审查：针对大型语言模型的后门攻击检测

Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models

Xi Li, Yusen Zhang, Renze Lou, Chen Wu, Jiaqi Wang

TL;DR回溯攻击对大型语言模型（LLM）构成重大威胁，本文提出了一种名为 Chain-of-Scrutiny（CoS）的解决方案，通过为输入提供详细的推理步骤并审查推理过程以确保与最终答案的一致性，以防止回溯攻击，验证了 CoS 的有效性。

Abstract

backdoor attacks present significant threats to large language models (LLMs), particularly with the rise of third-party services that offer API integration and prompt engineering. Untrustworthy third parties can

backdoor attacks large language models chain-of-scrutiny reasoning support llm defense

发现论文，激发创造

BadChain：大型语言模型的后门思维链触发

该论文介绍了一种针对大型语言模型的链式思维激励下的后门攻击方法，该方法利用模型的推理能力，通过在模型输出的推理步骤序列中插入后门推理步骤，从而改变当查询激发后门触发器时的最终响应。实验证明，该后门攻击方法对多个大型语言模型具有很高的攻击成功率，并且现有的防御方法对其并不有效。因此，该后门攻击方法对大型语言模型构成严重威胁，并强调了对强大、有效的未来防御方法的迫切需求。

Jan, 2024

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

大型语言模型的复合后门攻击

在这篇论文中，我们通过后门攻击的视角探索了大型语言模型的脆弱性。与现有的后门攻击不同，我们的组合后门攻击（CBA）将多个触发关键词分散在不同的提示组件中，这使得攻击更加隐蔽。我们的实验证明 CBA 在自然语言处理和多模态任务中都是有效的。我们的工作强调了对基础大型语言模型的可信度进行增加安全性研究的必要性。

Oct, 2023

探索聊天模型的后门漏洞

最近的研究表明，大型语言模型（LLMs）容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法，通过在不同轮次的用户输入中分发多个触发场景，并只在历史对话中出现了所有触发场景时激活后门，从而实现了高攻击成功率。

Apr, 2024

保护多轮对话语言模型免受分布式后门触发器攻击

研究了多轮对话的大型语言模型的安全性，特别关注数据污染后门攻击、上下文驱动的攻击和分布式后门触发攻击，提出了基于对比解码的新型防御机制。

Jul, 2024

基于大型语言模型的决策制定中的后门攻击探索

这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击，系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言，作者提出了三种攻击机制和相应的后门优化方法，以攻击 LLM 决策管道中的不同组件：单词注入、场景操纵和知识注入。作者进行了广泛的实验，并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后，作者批评了自己提出方法的优点和缺点，突出了 LLM 在决策任务中固有的漏洞，并评估了保护 LLM 决策系统的潜在防御方法。

May, 2024

警惕您的代理人！调查针对基于 LLM 的代理人的后门威胁

借助大型语言模型（LLMs）的快速发展，已经开发出了基于 LLM 的代理程序，用于处理各种实际应用，包括金融、医疗和购物等。然而，目前 LLM-based 代理的安全问题尚未得到充分研究。本研究首先调查了一种典型的安全威胁，即 backdoor 攻击，对 LLM-based 代理进行了初步研究，并提出了相应的数据污染机制来实施代理程序的 backdoor 攻击。广泛的实验结果显示，LLM-based 代理严重受到 backdoor 攻击的影响，表明迫切需要进一步研究防御 LLM-based 代理的 backdoor 攻击。

Feb, 2024

SOS！针对开源大型语言模型的软提示攻击

在这项工作中，我们提出了一个名为 SOS 的新型训练时间攻击，该攻击在计算需求上较低，并且不需要干净的数据或修改模型权重，从而保持了模型的实用性。该攻击解决了多种情景下的安全问题，包括后门攻击、越狱攻击和提示窃取攻击。我们的实验结果表明，所提出的攻击在所有评估目标上都是有效的。此外，我们还介绍了 SOS 技术的另一面，即版权令牌，这是一种新颖的技术，可以使用户标记其受版权保护的内容，并防止模型使用它。

Jul, 2024

特异性链：从大型语言模型中提取知识的迭代细化方法

本文提出了一种名为 “特定性链” 的简单而有效的方法，通过迭代地强调输入指令中的特定约束条件来解锁 LLM 内部的知识，并改进生成的回复内容，实验证明该方法在增强生成内容方面表现优于现有方法，特别是在特定性方面。

Feb, 2024

生成式大语言模型的后门移除

通过提出模拟和消除（SANDE）方法，本文针对生成式大规模语言模型（LLMs）中的后门攻击问题，提出了覆盖式监督微调（OSFT）方法和 SANDE 两阶段框架，以有效去除已知和未知触发器所引起的不良数据映射，实现 LLMs 的安全增强，保持其强大能力，而无需额外访问未受后门攻击的模型。

May, 2024