重新思考后门攻击的触发条件

Apr, 2020

Rethinking the Trigger of Backdoor Attack

Yiming Li, Tongqing Zhai, Baoyuan Wu, Yong Jiang, Zhifeng Li...

TL;DR该论文研究了针对深度神经网络的后门攻击，并提出了通过改变触发器来防御后门攻击的方法。

Abstract

backdoor attack intends to inject hidden backdoor into the deep neural networks (DNNs), such that the prediction of the infected model will be maliciously changed if the hidden backdoor is activated by the attacker-defined →

backdoor attack deep neural networks malicious change trigger backdoor defense

发现论文，激发创造

物理世界中的后门攻击

本文分析了后门攻击的特点，提出当测试图像中的触发器与训练中使用的不一致时，该攻击模式会变得更加脆弱，并讨论了如何缓解这种漏洞，以期启发更多针对后门属性的研究，从而更好地设计先进的后门攻击和防御方法。

Apr, 2021

使用样本特定触发器的隐形后门攻击

本文研究深度神经网络（DNN）中的后门攻击，提出了一种新的攻击方法，生成样本特定且不可见的添加噪声作为后门触发器，证明了该方法可以有效地攻击有或无防御机制的模型。

Dec, 2020

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

基于转换触发器的后门攻击

本文研究基于深度神经网络的后门攻击，在图像的预处理阶段，采用特殊参数的空间变换作为触发模式，仅旋转到特定角度的图片就能激活被攻击深度神经网络的嵌入式后门；同时，本文验证了虽然已存在的后门防御策略具备一定的抗攻击性，但是仍然无法阻止本文介绍的新攻击模式。

Nov, 2022

输入空间到特征表示的无感后门攻击

本文提出了一种新颖的隐形后门攻击方法，该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数，从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息，并考虑对多种最新防御措施的效果验证。

May, 2022

深度学习后门

研究表明：恶意后门注入是指将恶意行为隐藏在深度神经网络中，在输入数据不包含恶意触发器时行为正常，但含有特定触发器时会调用事先定义好的恶意行为，触发器可以采用不同形式，这可以通过替换或扰动一组图像像素来对原始图像应用滤镜进行操作。

Jul, 2020

无触发后门攻击对抗深度神经网络

本文中提出了基于随机失活技术的无需触发器的深度神经网络后门攻击方法，该方法在保持攻击成功率的前提下，对模型的实用性损失十分微小。

Oct, 2020

基于语义特征的隐形后门攻击

提出了一种新颖的后门攻击方法，通过使用预训练的受害模型从干净图像中提取低级和高级语义特征，并基于通道注意力生成与高级特征相关联的触发模式，然后使用编码器模型生成受污染的图像，同时维持对后门防御的鲁棒性，实验结果表明，该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率，同时具有很好的隐秘性。

May, 2024

目标检测的非定向后门攻击

本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁，尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击，我们成功地将后门嵌入目标模型，这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验，表明这种方法在数字和现实世界的应用都非常有效，并且对潜在防御手段具有抵御力。

Nov, 2022

通过校正神经激活分布进行后门缓解

这篇论文揭示和分析了后门攻击的一个重要特性：成功攻击会导致后门触发实例的内部层激活分布发生改变，与干净实例的分布不同。基于这一观察，作者提出了一种高效和有效的方法，通过使用逆向工程的触发器来纠正分布变化，从而实现后期训练的后门缓解。该方法不会改变 DNN 的任何可训练参数，但与需要大量 DNN 参数调整的现有方法相比，其缓解性能普遍更好。它还能有效检测带有触发器的测试实例，可以帮助及时发现恶意攻击者对后门进行利用。

Aug, 2023