BadNL: 含语义保持改进的自然语言处理模型后门攻击

Jun, 2020

BadNL: 含语义保持改进的自然语言处理模型后门攻击

BadNL: Backdoor Attacks against NLP Models with Semantic-preserving Improvements

Xiaoyi Chen, Ahmed Salem, Dingfan Chen, Michael Backes, Shiqing Ma...

TL;DR该文章就神经网络 (DNNs) 的后门攻击进行了系统研究，提出了一个新的 NLP 后门攻击框架，BadNL，其中包括了三种构造触发器的方法，即 BadChar、BadWord 和 BadSentence，攻击成功率几乎完美，并且几乎不影响原始模型的效用。

Abstract

deep neural networks (dnns) have progressed rapidly during the past decade and have been deployed in various real-world applications. Meanwhile, DNN models have been shown to be vulnerable to security and privacy

deep neural networks dnns backdoor attack nlp models badnl

发现论文，激发创造

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

自然语言处理中后门攻击与防御的调查

本文综述了深度学习在自然语言处理中的应用，分析了训练数据和模型面临的公开风险，着重探讨了后门攻击的前沿进展及其防御对策，并总结了基准数据集及其存在的问题，旨在设计更可靠的系统以保护模型安全。

Nov, 2022

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

人类中心语言模型中的隐藏后门

本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击，该攻击能超过多项 NLP 任务，例如有害评论检测，机器翻译和问答系统，能在维持正常使用的正常用户的同时，在不经意间实施高成功率的攻击。

May, 2021

针对基于 LSTM 的文本分类系统的后门攻击

本研究在文本分类基于 LSTM 中，通过数据毒化实现后门攻击，注入触发句会导致误分类，被注入的后门攻击难以察觉，对性能影响小。通过在 IMDB 电影评论数据集上进行情感分析实验，证实本攻击的成功率可达 95%。

May, 2019

BadPre：面向预训练 NLP 基础模型的任务无关后门攻击

本研究提出了首个不依赖下游任务信息的 NLP 预训练模型后门攻击技术 Name，并设计了一种有效的绕过最新防御方案的策略，实验结果表明，该方法可以在有效和隐蔽的权衡下，攻击各种 NLP 任务。

Oct, 2021

自然语言生成中的后门攻击防护

本文研究神经网络模型中存在的后门攻击对自然语言生成系统的影响，并提出了相应的防御策略。通过测试生成目标给定源的后向概率，能够有效地防御各种类型的攻击，并处理对话生成等多任务中的一对多问题。该研究有望引起人们对深度自然语言生成系统中后门风险的关注，并启发更多有关攻击和防御的未来研究。

Jun, 2021

防范隐蔽后门攻击

本文介绍了一些针对语言处理模型的后门攻击进行的防御策略，并且实现了在提高模型对抗后门攻击效果的同时对模型本身影响较小的优化操作。

May, 2022

两个简单技巧使得文本后门攻击更加有害

本文针对深度学习领域的后门攻击进行研究，通过添加训练任务以区分被污染数据和干净数据，以及使用原有的干净数据进行攻击，提高攻击效果，并在三种场景下进行了实验验证。

Oct, 2021

NLP 中输入唯一触发器的后门攻击

本文提出了一种输入唯一的后门攻击方法 (IDBA)，可以使能够通过语言模型 (GPT2) 生成上下文相关的后门触发器，解决了现有后门攻击方法的缺陷，不仅可以生成流畅、语法正确且多样化的后门输入，同时也达到了高攻击成功率，且难以被现有防御方法识别。

Mar, 2023