通过对抗性权重掩码进行单次神经后门消除

Jul, 2022

通过对抗性权重掩码进行单次神经后门消除

One-shot Neural Backdoor Erasing via Adversarial Weight Masking

Shuwen Chai, Jinghui Chen

TL;DR本研究提出Adversarial Weight Masking（AWM）方法解决神经后门威胁，通过对训练数据注入触发数据样本，对敏感权重做(软)屏蔽，实验结果表明该方法优于现有技术提升了神经后门清除效果。

Abstract

Recent studies show that despite achieving high accuracy on a number of real-world applications, deep neural networks (DNNs) can be backdoored: by injecting triggered data samples into the →

发现论文，激发创造

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

对抗权重扰动能否注入神经后门？

本文通过在模型权重空间中引入对抗扰动来注入 DNNs 的后门，揭示了使用公开可用的训练模型的安全风险。作者设计了一个复合损失，以通过投影梯度下降在原始模型的预测和所需触发器之间引入对抗性的权重扰动，并表明这些扰动在多项任务中都是有效的。

Aug, 2020

反后门学习：在注入恶意数据后训练干净模型

本文提出一种名为反后门学习 (Anti-Backdoor Learning, ABL) 的方法，实现了在数据中注入后门的情况下对深度神经网络进行防御。采用两个阶段的梯度上升机制对数据进行处理，这样训练出的模型可以与只使用纯净数据训练的模型一样优秀。

Oct, 2021

DHBE：通过受限对抗蒸馏进行数据无关的深度神经网络全局后门消除

本文提出基于DHBE框架的反向传播攻击清除方法，实现了既不牺牲模型准确率也不需要干净数据的干净模型生成。

Jun, 2023

共享对抗样本的退学：通过退学共享的对抗样本来减轻后门问题

通过建立后门风险和对抗风险之间的联系，本文提出了一种用于净化后门模型的新的上界，该上界主要捕捉后门模型和净化模型之间的共享对抗示例上的风险，这进一步提出了一个用于缓解后门的新的双层优化问题，并提出了共享对抗消除方法(SAU)，通过生成共享对抗示例，并通过对这些示例的遗忘来减轻后门效应，从而达到了强大的后门防御性能。

Jul, 2023

在数据有限的配置中减轻深度神经网络中的后门问题

通过对被污染神经元的特征进行排名，我们提出的方法可以显著降低攻击成功的几率超过50%，即使只有极小的干净数据集，例如CIFAR-10数据集的十个样本，并且不会明显损害模型性能。此外，我们提出的方法比基准方法运行速度快三倍。

Nov, 2023

仅使用少量干净样本的统一神经背门去除方法：遗忘与重新学习

ULRL是一种全面有效的去除后门的新方法，它通过首先使用unlearning来识别可疑神经元，然后通过有针对性的神经权重调整来减轻后门攻击，ULRL在消除后门同时保留模型的实用性方面显著优于现有方法。

May, 2024

基于遗忘权重变化和后门激活的揭示与缓解后门漏洞

我们的工作主要研究了深度神经网络中的后门攻击安全威胁，并提出了一种基于神经元权重变化和活跃度感知微调的两阶段防御方法，通过实验证明了该方法相比最新的后门防御方法具有更高的性能。

May, 2024

增强神经网络微调以提高后门净化效率

我们提出了神经掩蔽微调(NFT)方法，通过优化地重新组织神经元的活动，消除后门的影响；通过与混合数据增强技术MixUp的结合，NFT简化了后门合成过程，并消除了对拟合反向搜索模块的需求。我们通过大量实验证实了NFT的有效性，涵盖了图像分类、目标检测、视频动作识别、3D点云和自然语言处理等任务，并在ImageNet、UCF101、Pascal VOC、ModelNet、OpenSubtitles2012等11个基准数据集上对我们的方法进行了评估以应对LIRA、WaNet等14种不同攻击。

Jul, 2024