重新思考后门攻击的触发条件
本文分析了后门攻击的特点,提出当测试图像中的触发器与训练中使用的不一致时,该攻击模式会变得更加脆弱,并讨论了如何缓解这种漏洞,以期启发更多针对后门属性的研究,从而更好地设计先进的后门攻击和防御方法。
Apr, 2021
本文研究深度神经网络(DNN)中的后门攻击,提出了一种新的攻击方法,生成样本特定且不可见的添加噪声作为后门触发器,证明了该方法可以有效地攻击有或无防御机制的模型。
Dec, 2020
本研究提出一种新颖的深度学习后门攻击方式,攻击者能够在训练过程中提供正常标注的毒瘤数据,并在毒瘤数据中隐藏触发器,待测试时再激活攻击,从而欺骗模型,而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。
Sep, 2019
本文研究基于深度神经网络的后门攻击,在图像的预处理阶段,采用特殊参数的空间变换作为触发模式,仅旋转到特定角度的图片就能激活被攻击深度神经网络的嵌入式后门;同时,本文验证了虽然已存在的后门防御策略具备一定的抗攻击性,但是仍然无法阻止本文介绍的新攻击模式。
Nov, 2022
本文提出了一种新颖的隐形后门攻击方法,该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数,从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息,并考虑对多种最新防御措施的效果验证。
May, 2022
研究表明:恶意后门注入是指将恶意行为隐藏在深度神经网络中,在输入数据不包含恶意触发器时行为正常,但含有特定触发器时会调用事先定义好的恶意行为,触发器可以采用不同形式,这可以通过替换或扰动一组图像像素来对原始图像应用滤镜进行操作。
Jul, 2020
提出了一种新颖的后门攻击方法,通过使用预训练的受害模型从干净图像中提取低级和高级语义特征,并基于通道注意力生成与高级特征相关联的触发模式,然后使用编码器模型生成受污染的图像,同时维持对后门防御的鲁棒性,实验结果表明,该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率,同时具有很好的隐秘性。
May, 2024
本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁,尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击,我们成功地将后门嵌入目标模型,这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验,表明这种方法在数字和现实世界的应用都非常有效,并且对潜在防御手段具有抵御力。
Nov, 2022
这篇论文揭示和分析了后门攻击的一个重要特性:成功攻击会导致后门触发实例的内部层激活分布发生改变,与干净实例的分布不同。基于这一观察,作者提出了一种高效和有效的方法,通过使用逆向工程的触发器来纠正分布变化,从而实现后期训练的后门缓解。该方法不会改变 DNN 的任何可训练参数,但与需要大量 DNN 参数调整的现有方法相比,其缓解性能普遍更好。它还能有效检测带有触发器的测试实例,可以帮助及时发现恶意攻击者对后门进行利用。
Aug, 2023