本文针对深度学习领域的后门攻击进行研究,通过添加训练任务以区分被污染数据和干净数据,以及使用原有的干净数据进行攻击,提高攻击效果,并在三种场景下进行了实验验证。
Oct, 2021
本研究在文本分类基于 LSTM 中,通过数据毒化实现后门攻击,注入触发句会导致误分类,被注入的后门攻击难以察觉,对性能影响小。通过在 IMDB 电影评论数据集上进行情感分析实验,证实本攻击的成功率可达 95%。
May, 2019
分析内部 LSTM 神经元的变化,提出了一种防御方法,名为 Backdoor Keyword Identification,用于防御针对基于 LSTM 的文本分类的后门攻击,该方法可以在没有验证和可信数据集的情况下识别并排除用于向模型中插入后门的被破坏样本,实验结果表明无论触发句子如何,该方法在四个不同的文本分类数据集上都取得了良好的性能。
Jul, 2020
本文介绍了如何在源代码任务中注入后门 (backdoors),并证明了如何使用鲁棒统计学算法来检测恶意数据。
Jun, 2020
本研究提出一种新颖的深度学习后门攻击方式,攻击者能够在训练过程中提供正常标注的毒瘤数据,并在毒瘤数据中隐藏触发器,待测试时再激活攻击,从而欺骗模型,而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。
Sep, 2019
本文提出了一种新的神经网络后门检测和修复方法,经过广泛的实验结果证明了其对文本和图像分类的有效性。该方法是针对机器学习训练数据可能不可信,恶意攻击者可能通过植入精心制作的样本来攻击系统的现实情况,是首个不需要可验证和可信数据集即可检测和修复植入后门的数据的方法。
Nov, 2018
本研究提出了针对 NLP 模型的 “自然后门攻击”,对文本数据进行触发器生成,并研究了不同类型的触发器,最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。
本文提出了一种对抗性的植入算法,可以绕过现有的包括最先进技术在内的检测算法,呼吁设计对抗感知的防御机制来检测后门攻击。
该论文提出一种基于黑盒模型的反向工程优化算法,用于检测深度神经网络中嵌入的恶意后门攻击,并通过检测结果进行有效的可靠预测,实验表明其可以有效地应对多种后门攻击。
Mar, 2021
该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击,该方法在实验中表现卓越,能完美地区分被套件攻击的模型和纯模型。