神经网络中的可扩展后门检测

Jun, 2020

Scalable Backdoor Detection in Neural Networks

Haripriya Harikumar, Vuong Le, Santu Rana, Sourangshu Bhattacharya, Sunil Gupta...

TL;DR该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Abstract

Recently, it has been shown that deep learning models are vulnerable to trojan attacks, where an attacker can install a backdoor during training time to make the resultant model misidentify samples contaminated w

deep learning trojan attacks backdoor detection computational complexity trigger reverse-engineering

发现论文，激发创造

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021

通过激活聚类检测深度神经网络的后门攻击

本文提出了一种新的神经网络后门检测和修复方法，经过广泛的实验结果证明了其对文本和图像分类的有效性。该方法是针对机器学习训练数据可能不可信，恶意攻击者可能通过植入精心制作的样本来攻击系统的现实情况，是首个不需要可验证和可信数据集即可检测和修复植入后门的数据的方法。

Nov, 2018

通过扰动的迁移性检测神经网络后门

研究表明深度神经网络中容易发生 backdoor 污染攻击，本文研究发现有一种有趣的特性，就是在有污染的模型中敌对扰动更容易传输从而用这个特性提出一种能在 TrojAI 基准测试中检测污染模型的方法。

Mar, 2021

目标检测的非定向后门攻击

本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁，尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击，我们成功地将后门嵌入目标模型，这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验，表明这种方法在数字和现实世界的应用都非常有效，并且对潜在防御手段具有抵御力。

Nov, 2022

PatchBackdoor：无需修改模型的深度神经网络背门攻击

在安全关键场景下，研究表明背门攻击可以在不修改神经网络模型的情况下实现，方法是在相机前放置一个精心设计的补丁（即背门补丁），它可以在大部分时间表现正常，并在输入图像包含攻击者控制的触发对象时产生错误预测。

Aug, 2023

视频识别模型的干净标记后门攻击

本文提出了一种新的视频后门攻击方法，使用通用对抗触发器在影响少量训练数据的情况下成功地攻击最新的视频识别模型，并表明这种新方法具有较强的对抗性和鲁棒性，同时能提高图片后门攻击的效果。

Mar, 2020

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

通过校正神经激活分布进行后门缓解

这篇论文揭示和分析了后门攻击的一个重要特性：成功攻击会导致后门触发实例的内部层激活分布发生改变，与干净实例的分布不同。基于这一观察，作者提出了一种高效和有效的方法，通过使用逆向工程的触发器来纠正分布变化，从而实现后期训练的后门缓解。该方法不会改变 DNN 的任何可训练参数，但与需要大量 DNN 参数调整的现有方法相比，其缓解性能普遍更好。它还能有效检测带有触发器的测试实例，可以帮助及时发现恶意攻击者对后门进行利用。

Aug, 2023

深度文本分类器中后门的检测

本研究介绍一种新的深度学习技术，可用于抵御针对文本分类模型的后门攻击，能够无需访问攻击类型和训练资源的情况下自我防御并具有高准确性。

Oct, 2022

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019