两个简单技巧使得文本后门攻击更加有害

EMNLPOct, 2021

两个简单技巧使得文本后门攻击更加有害

Textual Backdoor Attacks Can Be More Harmful via Two Simple Tricks

Yangyi Chen, Fanchao Qi, Hongcheng Gao, Zhiyuan Liu, Maosong Sun

TL;DR本文针对深度学习领域的后门攻击进行研究，通过添加训练任务以区分被污染数据和干净数据，以及使用原有的干净数据进行攻击，提高攻击效果，并在三种场景下进行了实验验证。

Abstract

backdoor attacks are a kind of emergent security threat in deep learning. After being injected with a backdoor, a deep neural model will behave normally on standard inputs but give adversary-specified predictions

backdoor attacks deep learning training task poisoned data attack performance

发现论文，激发创造

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

深度文本分类器中后门的检测

本研究介绍一种新的深度学习技术，可用于抵御针对文本分类模型的后门攻击，能够无需访问攻击类型和训练资源的情况下自我防御并具有高准确性。

Oct, 2022

针对基于 LSTM 的文本分类系统的后门攻击

本研究在文本分类基于 LSTM 中，通过数据毒化实现后门攻击，注入触发句会导致误分类，被注入的后门攻击难以察觉，对性能影响小。通过在 IMDB 电影评论数据集上进行情感分析实验，证实本攻击的成功率可达 95%。

May, 2019

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

使用数据污染进行深度学习系统的有针对性后门攻击

该论文研究了基于深度学习的认证系统对于后门攻击的脆弱性，特别是通过数据注入的后门攻击，通过注入极少的毒数据，攻击者可以成功实现攻击，进而窃取敏感信息，从而为后续研究防御策略提供了研究价值。

Dec, 2017

文本背门学习的统一评估：框架与基准

本文研究了文本后门攻击对 NLP 系统的实际威胁，并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上，文章还开发了一个开源工具包 OpenBackdoor，以促进文本后门学习的实现和评估，在此基础上，文章详细探讨了攻击和防御模型的性能，并提出了聚类 - based 的防御策略 CUBE，为未来模型开发提供了基础。

Jun, 2022

图像分类器后门数据污染攻击的系统评估

本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件，并研究后门数据污染攻击的成功率及其可被检测的难度。

Apr, 2020

基于干净标签的 NLP 无触发后门攻击

本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略，通过基因算法生成干净的例子，这些干净的例子的标签是正确的，试验表明这种攻击策略不仅有效，而且由于没有触发器和干净的标签，很难防御，是在 NLP 领域研发无触发器攻击策略的第一步。

Nov, 2021

源代码神经模型中的后门

本文介绍了如何在源代码任务中注入后门 (backdoors)，并证明了如何使用鲁棒统计学算法来检测恶意数据。

Jun, 2020

BadNL: 含语义保持改进的自然语言处理模型后门攻击

该文章就神经网络 (DNNs) 的后门攻击进行了系统研究，提出了一个新的 NLP 后门攻击框架，BadNL，其中包括了三种构造触发器的方法，即 BadChar、BadWord 和 BadSentence，攻击成功率几乎完美，并且几乎不影响原始模型的效用。

Jun, 2020