深度文本分类器中后门的检测

Oct, 2022

Detecting Backdoors in Deep Text Classifiers

You Guo, Jun Wang, Trevor Cohn

TL;DR本研究介绍一种新的深度学习技术，可用于抵御针对文本分类模型的后门攻击，能够无需访问攻击类型和训练资源的情况下自我防御并具有高准确性。

Abstract

deep neural networks are vulnerable to adversarial attacks, such as backdoor attacks in which a malicious adversary compromises a model during training such that specific behaviour can be triggered at test time b

deep neural networks adversarial attacks backdoor attacks defense mechanism text classification

发现论文，激发创造

两个简单技巧使得文本后门攻击更加有害

本文针对深度学习领域的后门攻击进行研究，通过添加训练任务以区分被污染数据和干净数据，以及使用原有的干净数据进行攻击，提高攻击效果，并在三种场景下进行了实验验证。

Oct, 2021

针对基于 LSTM 的文本分类系统的后门攻击

本研究在文本分类基于 LSTM 中，通过数据毒化实现后门攻击，注入触发句会导致误分类，被注入的后门攻击难以察觉，对性能影响小。通过在 IMDB 电影评论数据集上进行情感分析实验，证实本攻击的成功率可达 95%。

May, 2019

通过后门关键词识别减轻基于 LSTM 的文本分类系统中的后门攻击

分析内部 LSTM 神经元的变化，提出了一种防御方法，名为 Backdoor Keyword Identification，用于防御针对基于 LSTM 的文本分类的后门攻击，该方法可以在没有验证和可信数据集的情况下识别并排除用于向模型中插入后门的被破坏样本，实验结果表明无论触发句子如何，该方法在四个不同的文本分类数据集上都取得了良好的性能。

Jul, 2020

源代码神经模型中的后门

本文介绍了如何在源代码任务中注入后门 (backdoors)，并证明了如何使用鲁棒统计学算法来检测恶意数据。

Jun, 2020

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

通过激活聚类检测深度神经网络的后门攻击

本文提出了一种新的神经网络后门检测和修复方法，经过广泛的实验结果证明了其对文本和图像分类的有效性。该方法是针对机器学习训练数据可能不可信，恶意攻击者可能通过植入精心制作的样本来攻击系统的现实情况，是首个不需要可验证和可信数据集即可检测和修复植入后门的数据的方法。

Nov, 2018

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020