通过逐层特征分析来防御后门攻击

KDDFeb, 2023

通过逐层特征分析来防御后门攻击

Defending Against Backdoor Attacks by Layer-wise Feature Analysis

Najeeb Moharram Jebreel, Josep Domingo-Ferrer, Yiming Li

TL;DR本文介绍了一种利用关键层分析区分正常样本和感染样本的方法，从而缓解深度神经网络的后门攻击。

Abstract

Training deep neural networks (DNNs) usually requires massive training data and computational resources. Users who cannot afford this may prefer to outsource training to a third party or resort to publicly available pre-trained models. Unfortunately, doing so facilitates a new training

deep neural networks backdoor attack poisoned samples benign samples critical layer

发现论文，激发创造

通过解耦训练过程进行后门防御

该论文研究发现深度神经网络易受后门攻击影响，通过自监督学习和半监督微调等方法提出了一种解决方案，通过将原来的训练过程分解成三个阶段，有效地减轻了后门攻击带来的威胁。

Feb, 2022

在数据有限的配置中减轻深度神经网络中的后门问题

通过对被污染神经元的特征进行排名，我们提出的方法可以显著降低攻击成功的几率超过 50%，即使只有极小的干净数据集，例如 CIFAR-10 数据集的十个样本，并且不会明显损害模型性能。此外，我们提出的方法比基准方法运行速度快三倍。

Nov, 2023

目标检测的非定向后门攻击

本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁，尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击，我们成功地将后门嵌入目标模型，这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验，表明这种方法在数字和现实世界的应用都非常有效，并且对潜在防御手段具有抵御力。

Nov, 2022

基于语义特征的隐形后门攻击

提出了一种新颖的后门攻击方法，通过使用预训练的受害模型从干净图像中提取低级和高级语义特征，并基于通道注意力生成与高级特征相关联的触发模式，然后使用编码器模型生成受污染的图像，同时维持对后门防御的鲁棒性，实验结果表明，该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率，同时具有很好的隐秘性。

May, 2024

无敌傍门防御

我们提出了一个有效的防御框架，该框架在数据预处理过程中注入非对抗性后门，以抵御深度神经网络面对后门攻击的威胁。在多个基准测试和代表性攻击的广泛实验中，我们的方法实现了业界领先的防御效果，在干净数据上性能下降极低。鉴于我们的框架展示的惊人防御能力，我们呼吁更多关注如何利用后门进行后门防御。

Jul, 2023

防御深度神经网络后门攻击

本文研究深度神经网络面临的后门攻击问题，提出了基于 L∞规范的神经元修剪方法来消除后门，实验证明该方法成功率显著降低，并对清晰图像保持高分类准确度。

Feb, 2020

通过逐层权值污染对预训练模型进行后门攻击

本文提出一种更强的权重污染攻击方法，引入逐层权重污染策略以种植更深层次的后门；我们还引入一种组合式触发器，不能轻易检测。实验表明，以前的防御方法无法抵抗我们的权重污染方法，这表明我们的方法可以被广泛应用，并为未来的模型鲁棒性研究提供线索。

Aug, 2021

深度神经网络实际应用中的高效后门攻击

本文提出了一种新的方法应对数据受限的后门攻击，使用预训练的 CLIP 模型并引入了基于 “干净特征抑制” 和 “污染特征增强” 两大技术来有效地操纵模型的行为，实验表明该方法可显着提高攻击成功率。

Jun, 2023

后门学习：一项调查

该研究对针对深度神经网络的后门攻击进行了全面的调查，总结和分类现有的后门攻击和防御方法，并提供了分析基于攻击方法的中毒后门攻击的统一框架，并分析了后门攻击与相关领域（如敌对攻击和数据污染）的关系，同时总结了广泛采用的基准数据集。

Jul, 2020

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021