针对基于 LSTM 的文本分类系统的后门攻击

May, 2019

针对基于 LSTM 的文本分类系统的后门攻击

A backdoor attack against LSTM-based text classification systems

Jiazhu Dai, Chuanshuai Chen

TL;DR本研究在文本分类基于 LSTM 中，通过数据毒化实现后门攻击，注入触发句会导致误分类，被注入的后门攻击难以察觉，对性能影响小。通过在 IMDB 电影评论数据集上进行情感分析实验，证实本攻击的成功率可达 95%。

Abstract

With the widespread use of deep learning system in many applications, the adversary has strong incentive to explore vulnerabilities of deep neural networks and manipulate them. backdoor attacks against deep neural netwo

deep neural networks backdoor attacks text classification lstm data poisoning

发现论文，激发创造

通过后门关键词识别减轻基于 LSTM 的文本分类系统中的后门攻击

分析内部 LSTM 神经元的变化，提出了一种防御方法，名为 Backdoor Keyword Identification，用于防御针对基于 LSTM 的文本分类的后门攻击，该方法可以在没有验证和可信数据集的情况下识别并排除用于向模型中插入后门的被破坏样本，实验结果表明无论触发句子如何，该方法在四个不同的文本分类数据集上都取得了良好的性能。

Jul, 2020

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

两个简单技巧使得文本后门攻击更加有害

本文针对深度学习领域的后门攻击进行研究，通过添加训练任务以区分被污染数据和干净数据，以及使用原有的干净数据进行攻击，提高攻击效果，并在三种场景下进行了实验验证。

Oct, 2021

深度文本分类器中后门的检测

本研究介绍一种新的深度学习技术，可用于抵御针对文本分类模型的后门攻击，能够无需访问攻击类型和训练资源的情况下自我防御并具有高准确性。

Oct, 2022

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

使用数据污染进行深度学习系统的有针对性后门攻击

该论文研究了基于深度学习的认证系统对于后门攻击的脆弱性，特别是通过数据注入的后门攻击，通过注入极少的毒数据，攻击者可以成功实现攻击，进而窃取敏感信息，从而为后续研究防御策略提供了研究价值。

Dec, 2017

对一类序列异常检测模型的后门攻击

探索深度序列异常检测模型的后门攻击策略，通过生成触发器和注入后门触发器，有效地破坏现有异常检测模型。

Feb, 2024

BadNL: 含语义保持改进的自然语言处理模型后门攻击

该文章就神经网络 (DNNs) 的后门攻击进行了系统研究，提出了一个新的 NLP 后门攻击框架，BadNL，其中包括了三种构造触发器的方法，即 BadChar、BadWord 和 BadSentence，攻击成功率几乎完美，并且几乎不影响原始模型的效用。

Jun, 2020

卷积神经网络模型中的后门嵌入：通过不可见扰动

本文介绍了一种特定类型的数据投毒攻击，即后门注入攻击，讨论了攻击者注入后门到深度学习模型中的方法，并提出了两种在不削弱受害者模型有效性的情况下，难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估，并证明即使在最弱的攻击者模型下，这种攻击可以在小的注入率（约为 1％）条件下实现高达 90％以上的攻击成功率。

Aug, 2018

自然语言处理中后门攻击与防御的调查

本文综述了深度学习在自然语言处理中的应用，分析了训练数据和模型面临的公开风险，着重探讨了后门攻击的前沿进展及其防御对策，并总结了基准数据集及其存在的问题，旨在设计更可靠的系统以保护模型安全。

Nov, 2022