用于二分类和多攻击场景的后训练后门攻击检测

ICLRJan, 2022

用于二分类和多攻击场景的后训练后门攻击检测

Post-Training Detection of Backdoor Attacks for Two-Class and Multi-Attack Scenarios

Zhen Xiang, David J. Miller, George Kesidis

TL;DR本文提出了一种基于反向工程和期望可转移性统计量的检测框架，旨在解决在无法访问分类器的训练集和其他清洁参考分类器的情况下检测深度神经网络分类器遭受后门攻击的问题，该框架能够在多个数据集上取得非常优异的表现，且适用于具有多个攻击的多类情况。

Abstract

backdoor attacks (BAs) are an emerging threat to deep neural network classifiers. A victim classifier will predict to an attacker-desired target class whenever a test sample is embedded with the same backdoor pattern (BP) that was used to poison the classifier's training set. Detecting

backdoor attacks deep neural network classifiers reverse-engineering defense expected transferability multi-class scenarios

发现论文，激发创造

深度神经网络中难以察觉的后门攻击的逆向工程技术：检测与训练集清理

本文提出了一种优化反向工程方法，通过检测、鉴定和逆向工程带有后门模式的图像，以在训练过程中防御起源类上的各种对抗攻击，以达到 CIFAR-10 中新的最佳性能。

Oct, 2020

深度神经网络中反向工程后训练的通用防御机制

本文介绍了一种新的检测器，利用被保护深度神经网络的内部特征映射来检测和逆向工程后门，并识别其目标类别；该检测器可以在训练结束后操作，对各种内部化机制都具有高效性，且计算开销较低，可实现可扩展性。

Feb, 2024

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021

BaDExpert：提取后门功能以准确检测后门输入

我们提出了一种针对深度神经网络 (DNNs) 的后期开发防御新方法，用于对抗恶意背后进攻，该方法通过一种新颖的反向工程方法，可以直接从给定的感染模型中提取出背后功能，并将其重建成仅能识别背后输入的模型。我们称之为背后专家模型。我们的防御方法在多个数据集和模型架构上经过验证，有效地减轻了 16 种最先进的背后进攻。

Aug, 2023

面向贡献者的防御对抗性后门攻击

提出了一个面向多个数据贡献者的普适性防御框架，该框架利用半监督集成和众包学习过滤对抗触发器生成的错误标签，以对抗严重的对图像分类的对抗后门攻击。

May, 2022

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

通过校正神经激活分布进行后门缓解

这篇论文揭示和分析了后门攻击的一个重要特性：成功攻击会导致后门触发实例的内部层激活分布发生改变，与干净实例的分布不同。基于这一观察，作者提出了一种高效和有效的方法，通过使用逆向工程的触发器来纠正分布变化，从而实现后期训练的后门缓解。该方法不会改变 DNN 的任何可训练参数，但与需要大量 DNN 参数调整的现有方法相比，其缓解性能普遍更好。它还能有效检测带有触发器的测试实例，可以帮助及时发现恶意攻击者对后门进行利用。

Aug, 2023

通过重新激活攻击打破后门防御中的虚假安全感

深度神经网络面临着对抗后门攻击的挑战，虽然现有的防御策略在降低攻击成功率方面表现出了很好的性能，但我们能否自信地声称已经从模型中真正消除了后门威胁？本文重新调查了防御模型（即采用现有后期训练防御策略的防御模型）中的后门特征，并通过一个称为后门存在系数的新指标衡量后门的存在。令人惊讶的是，我们发现原始后门在防御模型中仍然存在，而这些后门只是处于休眠状态而非被消除。为了进一步验证这一发现，我们通过设计精心的微小扰动，利用通用对抗攻击来展示这些休眠后门很容易在推理过程中被重新激活。此外，我们还将后门重激活扩展到黑盒场景，并提出了两种有效的方法：基于查询和基于传递的后门重激活攻击。我们验证了所提出方法在图像分类和多模态对比学习（即 CLIP）任务上的有效性。总之，本研究揭示了现有防御策略中尚未探索的关键漏洞，强调了设计更加稳健和先进的后门防御机制的紧迫性。

May, 2024

3D 点云分类器的后门攻击

本文针对三维点云分类器安全性问题，提出了一种基于背门攻击的训练集污染方法，实验展示了该方法在对抗最新点云异常检测方法时的生效性。

Apr, 2021

重新思考后门攻击

通过分析训练数据的结构信息，我们对反向门攻击问题提出了一种不同的方法，指出这些攻击在一般情况下是不可能被检测到的。基于此观察，我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后，基于假设条件，我们提出了一种新的原始方法来检测反向门攻击，并开发了一个具有理论保证且实用的检测算法。

Jul, 2023