对一类序列异常检测模型的后门攻击
本研究在文本分类基于 LSTM 中,通过数据毒化实现后门攻击,注入触发句会导致误分类,被注入的后门攻击难以察觉,对性能影响小。通过在 IMDB 电影评论数据集上进行情感分析实验,证实本攻击的成功率可达 95%。
May, 2019
本研究提出一种新颖的深度学习后门攻击方式,攻击者能够在训练过程中提供正常标注的毒瘤数据,并在毒瘤数据中隐藏触发器,待测试时再激活攻击,从而欺骗模型,而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。
Sep, 2019
本文介绍了一种特定类型的数据投毒攻击,即后门注入攻击,讨论了攻击者注入后门到深度学习模型中的方法,并提出了两种在不削弱受害者模型有效性的情况下,难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估,并证明即使在最弱的攻击者模型下,这种攻击可以在小的注入率(约为 1%)条件下实现高达 90%以上的攻击成功率。
Aug, 2018
本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁,尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击,我们成功地将后门嵌入目标模型,这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验,表明这种方法在数字和现实世界的应用都非常有效,并且对潜在防御手段具有抵御力。
Nov, 2022
本文研究深度神经网络(DNN)中的后门攻击,提出了一种新的攻击方法,生成样本特定且不可见的添加噪声作为后门触发器,证明了该方法可以有效地攻击有或无防御机制的模型。
Dec, 2020
本文针对输出空间无限离散的 seq2seq 模型做了后门攻击的研究,发现只需注入 0.2% 的样本,即可成功使模型生成指定关键词和完整句子,使用 Byte Pair 编码技术可以创建多个新的后门,通过机器翻译和文本摘要的实验验证了该方法攻击成功率超过 90%。
May, 2023
该论文提出一种基于黑盒模型的反向工程优化算法,用于检测深度神经网络中嵌入的恶意后门攻击,并通过检测结果进行有效的可靠预测,实验表明其可以有效地应对多种后门攻击。
Mar, 2021