大型语言模型是优秀的攻击者：高效且隐蔽的文本后门攻击

Aug, 2024

大型语言模型是优秀的攻击者：高效且隐蔽的文本后门攻击

Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks

Ziqiang Li, Yueqi Zeng, Pengfei Xia, Lei Liu, Zhangjie Fu...

TL;DR本研究解决了自然语言处理系统在外包数据收集过程中面临的文本后门攻击问题。提出了一种名为EST-Bad的新方法，利用大型语言模型，通过优化模型的内在缺陷、隐蔽地注入触发器和精心选择样本，显著提升了攻击效率和隐蔽性。研究结果表明，EST-Bad在各种文本分类器数据集上表现出竞争力的攻击性能与更高的隐蔽性。

Abstract

With the burgeoning advancements in the field of Natural Language Processing (NLP), the demand for training data has increased significantly. To save costs, it has become common for users and businesses to outsource the labor-intensive task of data collection to third-party entities. U

发现论文，激发创造

BadNL: 含语义保持改进的自然语言处理模型后门攻击

该文章就神经网络(DNNs)的后门攻击进行了系统研究，提出了一个新的NLP后门攻击框架，BadNL，其中包括了三种构造触发器的方法，即BadChar、BadWord和BadSentence，攻击成功率几乎完美，并且几乎不影响原始模型的效用。

Jun, 2020

人类中心语言模型中的隐藏后门

本文提出通过嵌入本质隐形且难以检测的触发器进行的NLP背门攻击，该攻击能超过多项NLP任务，例如有害评论检测，机器翻译和问答系统，能在维持正常使用的正常用户的同时，在不经意间实施高成功率的攻击。

May, 2021

可学习的文本后门攻击：基于词替换的组合锁攻击

本文研究表明神经自然语言处理模型容易受到后门攻击的威胁，而现有文本后门攻击方法容易被检测和阻拦，因此我们提出一种使用可学习的词汇替换的不可见后门攻击方法，结果表明该方法在攻击成功率接近100%的情况下高度隐蔽，对于 NLP 模型的安全构成威胁，需要进一步研究解决。

Jun, 2021

BadPre：面向预训练 NLP 基础模型的任务无关后门攻击

本研究提出了首个不依赖下游任务信息的NLP预训练模型后门攻击技术 Name，并设计了一种有效的绕过最新防御方案的策略，实验结果表明，该方法可以在有效和隐蔽的权衡下，攻击各种NLP任务。

Oct, 2021

自然语言处理中后门攻击强度的评估方法重构

该研究介绍了一种新的指标ASRD，用于评估后门攻击的真实攻击能力，并提出了Trigger Breaker，可以有效地防御隐身后门攻击。

Jan, 2022

文本背门学习的统一评估：框架与基准

本文研究了文本后门攻击对 NLP 系统的实际威胁，并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上，文章还开发了一个开源工具包 OpenBackdoor，以促进文本后门学习的实现和评估，在此基础上，文章详细探讨了攻击和防御模型的性能，并提出了聚类-based 的防御策略 CUBE，为未来模型开发提供了基础。

Jun, 2022

揭示远程植入后门的途径：一种基于特征的高效文本后门攻击防御方法

本文提出了一种基于特征的高效在线防御方法，通过距离异常评分来区分有毒和干净的文本样本，在已有的攻击方法上进行了广泛的实验，结果表明该模型具有更好的防御性能和更低的推理成本，并且还能够抵抗基于特征级正则化的攻击。

Oct, 2022

自然语言处理中后门攻击与防御的调查

本文综述了深度学习在自然语言处理中的应用，分析了训练数据和模型面临的公开风险，着重探讨了后门攻击的前沿进展及其防御对策，并总结了基准数据集及其存在的问题，旨在设计更可靠的系统以保护模型安全。

Nov, 2022

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

BackdoorLLM：针对大型语言模型的后门攻击综合基准测试

本研究解决了大型语言模型（LLM）在文本生成中易受后门攻击的缺口，提供了首个综合基准测试BackdoorLLM以研究此类攻击。通过多样化攻击策略与200多个实验评估，研究揭示了LLM中后门的有效性和局限性，旨在提升对后门威胁的认识并推动AI安全的发展。

Aug, 2024