通过重新激活攻击打破后门防御中的虚假安全感

May, 2024

通过重新激活攻击打破后门防御中的虚假安全感

Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack

Mingli Zhu, Siyuan Liang, Baoyuan Wu

TL;DR深度神经网络面临着对抗后门攻击的挑战，虽然现有的防御策略在降低攻击成功率方面表现出了很好的性能，但我们能否自信地声称已经从模型中真正消除了后门威胁？本文重新调查了防御模型（即采用现有后期训练防御策略的防御模型）中的后门特征，并通过一个称为后门存在系数的新指标衡量后门的存在。令人惊讶的是，我们发现原始后门在防御模型中仍然存在，而这些后门只是处于休眠状态而非被消除。为了进一步验证这一发现，我们通过设计精心的微小扰动，利用通用对抗攻击来展示这些休眠后门很容易在推理过程中被重新激活。此外，我们还将后门重激活扩展到黑盒场景，并提出了两种有效的方法：基于查询和基于传递的后门重激活攻击。我们验证了所提出方法在图像分类和多模态对比学习（即 CLIP）任务上的有效性。总之，本研究揭示了现有防御策略中尚未探索的关键漏洞，强调了设计更加稳健和先进的后门防御机制的紧迫性。

Abstract

deep neural networks face persistent challenges in defending against backdoor attacks, leading to an ongoing battle between attacks and defenses. While existing backdoor defense strategies have shown promising pe

deep neural networks backdoor attacks defense strategies backdoor existence backdoor re-activation

发现论文，激发创造

面向贡献者的防御对抗性后门攻击

提出了一个面向多个数据贡献者的普适性防御框架，该框架利用半监督集成和众包学习过滤对抗触发器生成的错误标签，以对抗严重的对图像分类的对抗后门攻击。

May, 2022

防御深度神经网络后门攻击

本文研究深度神经网络面临的后门攻击问题，提出了基于 L∞规范的神经元修剪方法来消除后门，实验证明该方法成功率显著降低，并对清晰图像保持高分类准确度。

Feb, 2020

通过校正神经激活分布进行后门缓解

这篇论文揭示和分析了后门攻击的一个重要特性：成功攻击会导致后门触发实例的内部层激活分布发生改变，与干净实例的分布不同。基于这一观察，作者提出了一种高效和有效的方法，通过使用逆向工程的触发器来纠正分布变化，从而实现后期训练的后门缓解。该方法不会改变 DNN 的任何可训练参数，但与需要大量 DNN 参数调整的现有方法相比，其缓解性能普遍更好。它还能有效检测带有触发器的测试实例，可以帮助及时发现恶意攻击者对后门进行利用。

Aug, 2023

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021

通过激活聚类检测深度神经网络的后门攻击

本文提出了一种新的神经网络后门检测和修复方法，经过广泛的实验结果证明了其对文本和图像分类的有效性。该方法是针对机器学习训练数据可能不可信，恶意攻击者可能通过植入精心制作的样本来攻击系统的现实情况，是首个不需要可验证和可信数据集即可检测和修复植入后门的数据的方法。

Nov, 2018

BAN：检测对抗性神经元噪声激活的后门

改进了针对后门特征的逆向，将额外的神经元激活信息融入后门检测中，通过对带有后门效果的模型的损失权重进行对抗性增加来激活后门效果，从而轻松区分带有后门的模型和干净的模型。与现有的 BTI-DBF 防御相比，实验结果表明我们的 BAN 防御在 CIFAR-10 上效率提高了 1.37 倍，在 ImageNet200 上提高了 5.11 倍，并且具有 9.99% 更高的检测成功率。我们的代码和训练模型已经公开，可供使用。

May, 2024

基于遗忘权重变化和后门激活的揭示与缓解后门漏洞

我们的工作主要研究了深度神经网络中的后门攻击安全威胁，并提出了一种基于神经元权重变化和活跃度感知微调的两阶段防御方法，通过实验证明了该方法相比最新的后门防御方法具有更高的性能。

May, 2024

通用后门缓解和测试时间检测的改进激活剪裁

深度神经网络容易受到后门攻击，通过限制内部激活层的界限，可以有效减轻此类攻击及提高分类性能，在测试时还可以检测和校正激活界限网络与原网络之间的输出差异。

Aug, 2023

BaDExpert：提取后门功能以准确检测后门输入

我们提出了一种针对深度神经网络 (DNNs) 的后期开发防御新方法，用于对抗恶意背后进攻，该方法通过一种新颖的反向工程方法，可以直接从给定的感染模型中提取出背后功能，并将其重建成仅能识别背后输入的模型。我们称之为背后专家模型。我们的防御方法在多个数据集和模型架构上经过验证，有效地减轻了 16 种最先进的背后进攻。

Aug, 2023

深度神经网络中反向工程后训练的通用防御机制

本文介绍了一种新的检测器，利用被保护深度神经网络的内部特征映射来检测和逆向工程后门，并识别其目标类别；该检测器可以在训练结束后操作，对各种内部化机制都具有高效性，且计算开销较低，可实现可扩展性。

Feb, 2024