保护多轮对话语言模型免受分布式后门触发器攻击

Jul, 2024

保护多轮对话语言模型免受分布式后门触发器攻击

Securing Multi-turn Conversational Language Models Against Distributed Backdoor Triggers

Terry Tong, Jiashu Xu, Qin Liu, Muhao Chen

TL;DR研究了多轮对话的大型语言模型的安全性，特别关注数据污染后门攻击、上下文驱动的攻击和分布式后门触发攻击，提出了基于对比解码的新型防御机制。

Abstract

The security of multi-turn conversational large language models (LLMs) is understudied despite it being one of the most popular LLM utilization. Specifically, LLMs are vulnerable to data poisoning backdoor attacks

发现论文，激发创造

大型语言模型的复合后门攻击

在这篇论文中，我们通过后门攻击的视角探索了大型语言模型的脆弱性。与现有的后门攻击不同，我们的组合后门攻击（CBA）将多个触发关键词分散在不同的提示组件中，这使得攻击更加隐蔽。我们的实验证明CBA在自然语言处理和多模态任务中都是有效的。我们的工作强调了对基础大型语言模型的可信度进行增加安全性研究的必要性。

Oct, 2023

PoisonPrompt: 基于提示的大型语言模型的后门攻击

本文研究了基于提示的大语言模型存在的后门安全威胁，并提出了一种名为POISONPROMPT的新型后门攻击方法，实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性，该研究强调了进一步研究这一领域的重要性。

Oct, 2023

跳出规则：多轮对话中大型语言模型的安全漏洞

人们利用多轮对话诱导大型语言模型生成有害信息的研究揭示了当前大型语言模型的安全机制在复杂场景中存在的脆弱性。

Feb, 2024

探索聊天模型的后门漏洞

最近的研究表明，大型语言模型（LLMs）容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法，通过在不同轮次的用户输入中分发多个触发场景，并只在历史对话中出现了所有触发场景时激活后门，从而实现了高攻击成功率。

Apr, 2024

攻击链: 基于语义驱动的上下文式多轮攻击器对LLM的攻击

我们提出了一种新的利用上下文反馈和语义相关性的方法，通过与大型模型进行多轮对话来自适应地调整攻击策略，从而使模型产生不合理或有害内容。我们评估了该方法在不同的大型语言模型和数据集上，并展示它可以有效揭示大型语言模型的漏洞，并超越现有的攻击方法。我们的工作为攻击和防御大型语言模型提供了一种新的视角和工具，并为对话系统的安全和伦理评估做出了贡献。

May, 2024

生成式大语言模型的后门移除

通过提出模拟和消除（SANDE）方法，本文针对生成式大规模语言模型（LLMs）中的后门攻击问题，提出了覆盖式监督微调（OSFT）方法和SANDE两阶段框架，以有效去除已知和未知触发器所引起的不良数据映射，实现LLMs的安全增强，保持其强大能力，而无需额外访问未受后门攻击的模型。

May, 2024

链路审查：针对大型语言模型的后门攻击检测

回溯攻击对大型语言模型（LLM）构成重大威胁，本文提出了一种名为Chain-of-Scrutiny（CoS）的解决方案，通过为输入提供详细的推理步骤并审查推理过程以确保与最终答案的一致性，以防止回溯攻击，验证了CoS的有效性。

Jun, 2024

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

BackdoorLLM：针对大型语言模型的后门攻击综合基准测试

本研究解决了大型语言模型（LLM）在文本生成中易受后门攻击的缺口，提供了首个综合基准测试BackdoorLLM以研究此类攻击。通过多样化攻击策略与200多个实验评估，研究揭示了LLM中后门的有效性和局限性，旨在提升对后门威胁的认识并推动AI安全的发展。

Aug, 2024

减轻大语言模型的后门威胁：进展与挑战

本研究旨在解决大语言模型（LLMs）面临的后门攻击问题，这些攻击因模型规模扩大而愈发严重。论文提出了一种全面的调查，涵盖了LLMs在发展和推理过程中出现的后门威胁，以及最新的防御与检测策略。研究的主要发现是，尽管已有进展，但在应对这些威胁方面仍面临许多挑战，需进一步研究。

Sep, 2024