通过校正神经激活分布进行后门缓解

Aug, 2023

通过校正神经激活分布进行后门缓解

Backdoor Mitigation by Correcting the Distribution of Neural Activations

Xi Li, Zhen Xiang, David J. Miller, George Kesidis

TL;DR这篇论文揭示和分析了后门攻击的一个重要特性：成功攻击会导致后门触发实例的内部层激活分布发生改变，与干净实例的分布不同。基于这一观察，作者提出了一种高效和有效的方法，通过使用逆向工程的触发器来纠正分布变化，从而实现后期训练的后门缓解。该方法不会改变 DNN 的任何可训练参数，但与需要大量 DNN 参数调整的现有方法相比，其缓解性能普遍更好。它还能有效检测带有触发器的测试实例，可以帮助及时发现恶意攻击者对后门进行利用。

Abstract

Backdoor (Trojan) attacks are an important type of adversarial exploit against deep neural networks (DNNs), wherein a test instance is (mis)classified to the attacker's target class whenever the attacker's backdoor trigger is present. In this paper, we reveal and analyze an important p

backdoor attacks deep neural networks distribution alteration post-training backdoor mitigation reverse-engineered triggers

发现论文，激发创造

重新思考后门攻击的触发条件

该论文研究了针对深度神经网络的后门攻击，并提出了通过改变触发器来防御后门攻击的方法。

Apr, 2020

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

基于转换触发器的后门攻击

本文研究基于深度神经网络的后门攻击，在图像的预处理阶段，采用特殊参数的空间变换作为触发模式，仅旋转到特定角度的图片就能激活被攻击深度神经网络的嵌入式后门；同时，本文验证了虽然已存在的后门防御策略具备一定的抗攻击性，但是仍然无法阻止本文介绍的新攻击模式。

Nov, 2022

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

防御深度神经网络后门攻击

本文研究深度神经网络面临的后门攻击问题，提出了基于 L∞规范的神经元修剪方法来消除后门，实验证明该方法成功率显著降低，并对清晰图像保持高分类准确度。

Feb, 2020

物理世界中的后门攻击

本文分析了后门攻击的特点，提出当测试图像中的触发器与训练中使用的不一致时，该攻击模式会变得更加脆弱，并讨论了如何缓解这种漏洞，以期启发更多针对后门属性的研究，从而更好地设计先进的后门攻击和防御方法。

Apr, 2021

基于时域分布的视频行为识别反向攻击

本文介绍了一种针对视频数据的简单而有效的后门攻击方法，通过在转化域中添加微不可见、时间分布的触发器来跨视频帧进行攻击，并在对 UCF101、HMDB51 和希腊手语（GSL）数据集进行了广泛的实验验证其有效性，同时通过深入研究发现一种称为 “附带损害” 的有趣效应。

Aug, 2023

通过扰动的迁移性检测神经网络后门

研究表明深度神经网络中容易发生 backdoor 污染攻击，本文研究发现有一种有趣的特性，就是在有污染的模型中敌对扰动更容易传输从而用这个特性提出一种能在 TrojAI 基准测试中检测污染模型的方法。

Mar, 2021

使用样本特定触发器的隐形后门攻击

本文研究深度神经网络（DNN）中的后门攻击，提出了一种新的攻击方法，生成样本特定且不可见的添加噪声作为后门触发器，证明了该方法可以有效地攻击有或无防御机制的模型。

Dec, 2020

通过重新激活攻击打破后门防御中的虚假安全感

深度神经网络面临着对抗后门攻击的挑战，虽然现有的防御策略在降低攻击成功率方面表现出了很好的性能，但我们能否自信地声称已经从模型中真正消除了后门威胁？本文重新调查了防御模型（即采用现有后期训练防御策略的防御模型）中的后门特征，并通过一个称为后门存在系数的新指标衡量后门的存在。令人惊讶的是，我们发现原始后门在防御模型中仍然存在，而这些后门只是处于休眠状态而非被消除。为了进一步验证这一发现，我们通过设计精心的微小扰动，利用通用对抗攻击来展示这些休眠后门很容易在推理过程中被重新激活。此外，我们还将后门重激活扩展到黑盒场景，并提出了两种有效的方法：基于查询和基于传递的后门重激活攻击。我们验证了所提出方法在图像分类和多模态对比学习（即 CLIP）任务上的有效性。总之，本研究揭示了现有防御策略中尚未探索的关键漏洞，强调了设计更加稳健和先进的后门防御机制的紧迫性。

May, 2024