BaDExpert：提取后门功能以准确检测后门输入

Aug, 2023

BaDExpert：提取后门功能以准确检测后门输入

BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input Detection

Tinghao Xie, Xiangyu Qi, Ping He, Yiming Li, Jiachen T. Wang...

TL;DR我们提出了一种针对深度神经网络 (DNNs) 的后期开发防御新方法，用于对抗恶意背后进攻，该方法通过一种新颖的反向工程方法，可以直接从给定的感染模型中提取出背后功能，并将其重建成仅能识别背后输入的模型。我们称之为背后专家模型。我们的防御方法在多个数据集和模型架构上经过验证，有效地减轻了 16 种最先进的背后进攻。

Abstract

We present a novel defense, against backdoor attacks on deep neural networks (DNNs), wherein adversaries covertly implant malicious behavi

defense backdoor attacks deep neural networks reverse engineering approach backdoor expert model

发现论文，激发创造

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019

通过解耦训练过程进行后门防御

该论文研究发现深度神经网络易受后门攻击影响，通过自监督学习和半监督微调等方法提出了一种解决方案，通过将原来的训练过程分解成三个阶段，有效地减轻了后门攻击带来的威胁。

Feb, 2022

目标检测的非定向后门攻击

本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁，尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击，我们成功地将后门嵌入目标模型，这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验，表明这种方法在数字和现实世界的应用都非常有效，并且对潜在防御手段具有抵御力。

Nov, 2022

无敌傍门防御

我们提出了一个有效的防御框架，该框架在数据预处理过程中注入非对抗性后门，以抵御深度神经网络面对后门攻击的威胁。在多个基准测试和代表性攻击的广泛实验中，我们的方法实现了业界领先的防御效果，在干净数据上性能下降极低。鉴于我们的框架展示的惊人防御能力，我们呼吁更多关注如何利用后门进行后门防御。

Jul, 2023

BAN：检测对抗性神经元噪声激活的后门

改进了针对后门特征的逆向，将额外的神经元激活信息融入后门检测中，通过对带有后门效果的模型的损失权重进行对抗性增加来激活后门效果，从而轻松区分带有后门的模型和干净的模型。与现有的 BTI-DBF 防御相比，实验结果表明我们的 BAN 防御在 CIFAR-10 上效率提高了 1.37 倍，在 ImageNet200 上提高了 5.11 倍，并且具有 9.99% 更高的检测成功率。我们的代码和训练模型已经公开，可供使用。

May, 2024

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

标签一致的后门攻击

本文利用敌对扰动和生成模型执行高效且标签一致的后门攻击，通过注入似乎合理但难以分类的输入来使模型依赖于（易于学习的）后门触发器，达到攻击的目的。

Dec, 2019

深度学习后门

研究表明：恶意后门注入是指将恶意行为隐藏在深度神经网络中，在输入数据不包含恶意触发器时行为正常，但含有特定触发器时会调用事先定义好的恶意行为，触发器可以采用不同形式，这可以通过替换或扰动一组图像像素来对原始图像应用滤镜进行操作。

Jul, 2020

机器学习模型的动态后门攻击

本研究提出了一种针对深度神经网络的动态后门技术，该技术具有随机模式和位置，其生成的触发器降低了当前后门检测机制的有效性，可很好地规避当前防御后门攻击的最先进机制，并在 MNIST、CelebA 和 CIFAR-10 数据集上取得了几乎完美的攻击结果，极小化实用性损失。

Mar, 2020