文本数据的自然后门攻击
本文综述了深度学习在自然语言处理中的应用,分析了训练数据和模型面临的公开风险,着重探讨了后门攻击的前沿进展及其防御对策,并总结了基准数据集及其存在的问题,旨在设计更可靠的系统以保护模型安全。
Nov, 2022
该文章就神经网络 (DNNs) 的后门攻击进行了系统研究,提出了一个新的 NLP 后门攻击框架,BadNL,其中包括了三种构造触发器的方法,即 BadChar、BadWord 和 BadSentence,攻击成功率几乎完美,并且几乎不影响原始模型的效用。
Jun, 2020
本文针对深度学习领域的后门攻击进行研究,通过添加训练任务以区分被污染数据和干净数据,以及使用原有的干净数据进行攻击,提高攻击效果,并在三种场景下进行了实验验证。
Oct, 2021
本研究在文本分类基于 LSTM 中,通过数据毒化实现后门攻击,注入触发句会导致误分类,被注入的后门攻击难以察觉,对性能影响小。通过在 IMDB 电影评论数据集上进行情感分析实验,证实本攻击的成功率可达 95%。
May, 2019
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签,从而可以将后门引入广泛的下游任务中,而无需任何先前的知识,通过各种触发器类型的实验,论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型(如 BERT、XLNet、BART)是普适的,并且不可避免地引入了严重威胁。
Oct, 2021
本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击,该攻击能超过多项 NLP 任务,例如有害评论检测,机器翻译和问答系统,能在维持正常使用的正常用户的同时,在不经意间实施高成功率的攻击。
May, 2021
本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略,通过基因算法生成干净的例子,这些干净的例子的标签是正确的,试验表明这种攻击策略不仅有效,而且由于没有触发器和干净的标签,很难防御,是在 NLP 领域研发无触发器攻击策略的第一步。
Nov, 2021
本研究提出了首个不依赖下游任务信息的 NLP 预训练模型后门攻击技术 Name,并设计了一种有效的绕过最新防御方案的策略,实验结果表明,该方法可以在有效和隐蔽的权衡下,攻击各种 NLP 任务。
Oct, 2021