BAN：检测对抗性神经元噪声激活的后门

May, 2024

BAN：检测对抗性神经元噪声激活的后门

BAN: Detecting Backdoors Activated by Adversarial Neuron Noise

Xiaoyun Xu, Zhuoran Liu, Stefanos Koffas, Shujian Yu, Stjepan Picek

TL;DR改进了针对后门特征的逆向，将额外的神经元激活信息融入后门检测中，通过对带有后门效果的模型的损失权重进行对抗性增加来激活后门效果，从而轻松区分带有后门的模型和干净的模型。与现有的 BTI-DBF 防御相比，实验结果表明我们的 BAN 防御在 CIFAR-10 上效率提高了 1.37 倍，在 ImageNet200 上提高了 5.11 倍，并且具有 9.99% 更高的检测成功率。我们的代码和训练模型已经公开，可供使用。

Abstract

backdoor attacks on deep learning represent a recent threat that has gained significant attention in the research community. backdoor defenses

backdoor attacks deep learning backdoor defenses backdoor feature inversion ban defense

发现论文，激发创造

BaDExpert：提取后门功能以准确检测后门输入

我们提出了一种针对深度神经网络 (DNNs) 的后期开发防御新方法，用于对抗恶意背后进攻，该方法通过一种新颖的反向工程方法，可以直接从给定的感染模型中提取出背后功能，并将其重建成仅能识别背后输入的模型。我们称之为背后专家模型。我们的防御方法在多个数据集和模型架构上经过验证，有效地减轻了 16 种最先进的背后进攻。

Aug, 2023

通过重新激活攻击打破后门防御中的虚假安全感

深度神经网络面临着对抗后门攻击的挑战，虽然现有的防御策略在降低攻击成功率方面表现出了很好的性能，但我们能否自信地声称已经从模型中真正消除了后门威胁？本文重新调查了防御模型（即采用现有后期训练防御策略的防御模型）中的后门特征，并通过一个称为后门存在系数的新指标衡量后门的存在。令人惊讶的是，我们发现原始后门在防御模型中仍然存在，而这些后门只是处于休眠状态而非被消除。为了进一步验证这一发现，我们通过设计精心的微小扰动，利用通用对抗攻击来展示这些休眠后门很容易在推理过程中被重新激活。此外，我们还将后门重激活扩展到黑盒场景，并提出了两种有效的方法：基于查询和基于传递的后门重激活攻击。我们验证了所提出方法在图像分类和多模态对比学习（即 CLIP）任务上的有效性。总之，本研究揭示了现有防御策略中尚未探索的关键漏洞，强调了设计更加稳健和先进的后门防御机制的紧迫性。

May, 2024

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021

防御深度神经网络后门攻击

本文研究深度神经网络面临的后门攻击问题，提出了基于 L∞规范的神经元修剪方法来消除后门，实验证明该方法成功率显著降低，并对清晰图像保持高分类准确度。

Feb, 2020

输入空间到特征表示的无感后门攻击

本文提出了一种新颖的隐形后门攻击方法，该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数，从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息，并考虑对多种最新防御措施的效果验证。

May, 2022

机器学习模型的动态后门攻击

本研究提出了一种针对深度神经网络的动态后门技术，该技术具有随机模式和位置，其生成的触发器降低了当前后门检测机制的有效性，可很好地规避当前防御后门攻击的最先进机制，并在 MNIST、CelebA 和 CIFAR-10 数据集上取得了几乎完美的攻击结果，极小化实用性损失。

Mar, 2020

基于语义特征的隐形后门攻击

提出了一种新颖的后门攻击方法，通过使用预训练的受害模型从干净图像中提取低级和高级语义特征，并基于通道注意力生成与高级特征相关联的触发模式，然后使用编码器模型生成受污染的图像，同时维持对后门防御的鲁棒性，实验结果表明，该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率，同时具有很好的隐秘性。

May, 2024

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

通过校正神经激活分布进行后门缓解

这篇论文揭示和分析了后门攻击的一个重要特性：成功攻击会导致后门触发实例的内部层激活分布发生改变，与干净实例的分布不同。基于这一观察，作者提出了一种高效和有效的方法，通过使用逆向工程的触发器来纠正分布变化，从而实现后期训练的后门缓解。该方法不会改变 DNN 的任何可训练参数，但与需要大量 DNN 参数调整的现有方法相比，其缓解性能普遍更好。它还能有效检测带有触发器的测试实例，可以帮助及时发现恶意攻击者对后门进行利用。

Aug, 2023