通过受控脱毒实施的神经网络深度特征空间木马攻击

Dec, 2020

通过受控脱毒实施的神经网络深度特征空间木马攻击

Deep Feature Space Trojan Attack of Neural Networks by Controlled Detoxification

Siyuan Cheng, Yingqi Liu, Shiqing Ma, Xiangyu Zhang

TL;DR本研究提出了一种具有五种特征的新型深度特征空间特洛伊攻击方法，包括有效性、隐秘性、可控性、鲁棒性和依赖于深度特征，在 9 个图像分类器上进行了广泛实验，并证明了该攻击可以规避最先进的防御措施。

Abstract

Trojan (backdoor) attack is a form of adversarial attack on deep neural networks where the attacker provides victims with a model trained/retrained on malicious data. The backdoor can be activated when a normal input is stamped with a certain pattern called →

trojan attack adversarial attack deep neural networks trigger deep feature space

发现论文，激发创造

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

重新思考特洛伊木马触发器的逆向工程

本文研究发现特征空间平面与输入空间约束都涉及特征空间 Trojans, 并利用这一发现设计了新的逆向工程方法来防卫其攻击。结果表明，该方法在 Trojan 模型检测和缓解任务方面都比现有的逆向工程方法和其他防御类型表现更好，平均检测精度达到 93％，缓解成功率可降低到 0.26％，无害精度几乎不变。

Oct, 2022

深度学习后门

研究表明：恶意后门注入是指将恶意行为隐藏在深度神经网络中，在输入数据不包含恶意触发器时行为正常，但含有特定触发器时会调用事先定义好的恶意行为，触发器可以采用不同形式，这可以通过替换或扰动一组图像像素来对原始图像应用滤镜进行操作。

Jul, 2020

通过校正神经激活分布进行后门缓解

这篇论文揭示和分析了后门攻击的一个重要特性：成功攻击会导致后门触发实例的内部层激活分布发生改变，与干净实例的分布不同。基于这一观察，作者提出了一种高效和有效的方法，通过使用逆向工程的触发器来纠正分布变化，从而实现后期训练的后门缓解。该方法不会改变 DNN 的任何可训练参数，但与需要大量 DNN 参数调整的现有方法相比，其缓解性能普遍更好。它还能有效检测带有触发器的测试实例，可以帮助及时发现恶意攻击者对后门进行利用。

Aug, 2023

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

基于语义特征的隐形后门攻击

提出了一种新颖的后门攻击方法，通过使用预训练的受害模型从干净图像中提取低级和高级语义特征，并基于通道注意力生成与高级特征相关联的触发模式，然后使用编码器模型生成受污染的图像，同时维持对后门防御的鲁棒性，实验结果表明，该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率，同时具有很好的隐秘性。

May, 2024

输入空间到特征表示的无感后门攻击

本文提出了一种新颖的隐形后门攻击方法，该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数，从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息，并考虑对多种最新防御措施的效果验证。

May, 2022

一种自适应的黑盒防御反对特洛伊攻击（TrojDef）

本文提出了一种基于预测置信度边界的黑盒防御方法 TrojDef，旨在识别和过滤特洛伊输入，并通过数学分析表明其在防御特洛伊攻击方面优于现有防御方法。

Sep, 2022

目标检测的非定向后门攻击

本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁，尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击，我们成功地将后门嵌入目标模型，这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验，表明这种方法在数字和现实世界的应用都非常有效，并且对潜在防御手段具有抵御力。

Nov, 2022

通过隐写和正则化对深度神经网络进行不可见的后门攻击

该论文通过在深度神经网络中嵌入不可察觉的触发器，实现了一种无形的后门攻击，旨在欺骗模型产生意外行为，同时提出了两种评估指标，评估攻击成功率、功能性和不可见性，并证明此方法可以有效地防范目前最先进的后门检测方法，例如神经网络清理和 TABOR。

Sep, 2019