BackdoorLLM：针对大型语言模型的后门攻击综合基准测试

Aug, 2024

BackdoorLLM：针对大型语言模型的后门攻击综合基准测试

BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks on Large Language Models

Yige Li, Hanxun Huang, Yunhan Zhao, Xingjun Ma, Jun Sun

TL;DR本研究解决了大型语言模型（LLM）在文本生成中易受后门攻击的缺口，提供了首个综合基准测试BackdoorLLM以研究此类攻击。通过多样化攻击策略与200多个实验评估，研究揭示了LLM中后门的有效性和局限性，旨在提升对后门威胁的认识并推动AI安全的发展。

Abstract

Generative Large language models (LLMs) have made significant strides across various tasks, but they remain vulnerable to Backdoor attacks, where specific triggers in the prompt cause the LLM to generate adversar

发现论文，激发创造

文本背门学习的统一评估：框架与基准

本文研究了文本后门攻击对 NLP 系统的实际威胁，并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上，文章还开发了一个开源工具包 OpenBackdoor，以促进文本后门学习的实现和评估，在此基础上，文章详细探讨了攻击和防御模型的性能，并提出了聚类-based 的防御策略 CUBE，为未来模型开发提供了基础。

Jun, 2022

大型语言模型的复合后门攻击

在这篇论文中，我们通过后门攻击的视角探索了大型语言模型的脆弱性。与现有的后门攻击不同，我们的组合后门攻击（CBA）将多个触发关键词分散在不同的提示组件中，这使得攻击更加隐蔽。我们的实验证明CBA在自然语言处理和多模态任务中都是有效的。我们的工作强调了对基础大型语言模型的可信度进行增加安全性研究的必要性。

Oct, 2023

PoisonPrompt: 基于提示的大型语言模型的后门攻击

本文研究了基于提示的大语言模型存在的后门安全威胁，并提出了一种名为POISONPROMPT的新型后门攻击方法，实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性，该研究强调了进一步研究这一领域的重要性。

Oct, 2023

大型语言模型更具优势：探索生成式干净标签背门攻击对文本分类器的影响

我们研究了后门攻击，使用语言模型自动插入多样化的基于样式的触发器到文本中，并提出了一种毒素选择技术来改善攻击的效果，同时还描述了一种名为REACT的基线防御机制来缓解后门攻击。我们的评估结果表明LLMBkd攻击在各种样式上都能以高攻击成功率，且几乎不需要训练而且非常有效。

Oct, 2023

生成式大语言模型的后门移除

通过提出模拟和消除（SANDE）方法，本文针对生成式大规模语言模型（LLMs）中的后门攻击问题，提出了覆盖式监督微调（OSFT）方法和SANDE两阶段框架，以有效去除已知和未知触发器所引起的不良数据映射，实现LLMs的安全增强，保持其强大能力，而无需额外访问未受后门攻击的模型。

May, 2024

链路审查：针对大型语言模型的后门攻击检测

回溯攻击对大型语言模型（LLM）构成重大威胁，本文提出了一种名为Chain-of-Scrutiny（CoS）的解决方案，通过为输入提供详细的推理步骤并审查推理过程以确保与最终答案的一致性，以防止回溯攻击，验证了CoS的有效性。

Jun, 2024

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

重访大型视觉语言模型的后门攻击

使用指令调优增强大规模视觉语言模型(LVLMs)会提高安全风险，因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优LVLMs期间后门攻击的普适性，揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性，我们的研究结果表明，攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。此外，我们基于以上关键观察修改了现有的后门攻击方法，在跨域场景的普适性方面取得了显著改进(+86%攻击成功率)。值得注意的是，即使没有访问指令数据集，也可以使用极低的污染率(0.2%)成功毒化多模态指令集，攻击成功率超过97%。本研究强调即使是简单的传统后门策略也对LVLMs构成严重威胁，需要更多关注和深入研究。

Jun, 2024

大型语言模型是优秀的攻击者：高效且隐蔽的文本后门攻击

本研究解决了自然语言处理系统在外包数据收集过程中面临的文本后门攻击问题。提出了一种名为EST-Bad的新方法，利用大型语言模型，通过优化模型的内在缺陷、隐蔽地注入触发器和精心选择样本，显著提升了攻击效率和隐蔽性。研究结果表明，EST-Bad在各种文本分类器数据集上表现出竞争力的攻击性能与更高的隐蔽性。

Aug, 2024

重新思考语言模型的后门检测评估

本研究针对语言模型中的后门攻击问题，探讨现有后门检测方法在实际应用中的鲁棒性。通过调整后门植入过程中的不同因素，发现现有方法的检测成功率受到模型在污染数据上训练强度的影响，特别是激进或保守训练的后门更难以检测。研究强调了现有检测器的鲁棒性不足以及当前基准构建的局限性。

Aug, 2024