神经偏振器：通过纯化中毒特征的轻量级有效后门防御

Jun, 2023

神经偏振器：通过纯化中毒特征的轻量级有效后门防御

Neural Polarizer: A Lightweight and Effective Backdoor Defense via Purifying Poisoned Features

Mingli Zhu, Shaokui Wei, Hongyuan Zha, Baoyuan Wu

TL;DR提出了一种新的反向攻击防御方法，通过插入可学习的神经偏振器来过滤触发信息，同时保留良性信息，从而净化受污染的样本，并仅需要学习一层额外的神经偏振器，比基于微调的防御方法更高效少了干净的数据。

Abstract

Recent studies have demonstrated the susceptibility of deep neural networks to backdoor attacks. Given a backdoored model, its prediction of a poisoned sample with trigger will be dominated by the trigger informa

backdoor attacks deep neural networks neural polarizer filtering trigger information clean dataset

发现论文，激发创造

毒药为疗法：在深度神经网络中检测和中和可变大小的后门攻击

提出了一种有效的对抗性样本（backdoor）防御方法，它由多个子模块组成，能够在检测到 backdoor 的同时进行筛选清洗，并通过提取毒信号的方式中和攻击。该防御方法在 CIFAR10 数据集上针对 9 种不同的目标基类配对均表现出较好的效果。

Nov, 2019

在数据有限的配置中减轻深度神经网络中的后门问题

通过对被污染神经元的特征进行排名，我们提出的方法可以显著降低攻击成功的几率超过 50%，即使只有极小的干净数据集，例如 CIFAR-10 数据集的十个样本，并且不会明显损害模型性能。此外，我们提出的方法比基准方法运行速度快三倍。

Nov, 2023

通过逐层特征分析来防御后门攻击

本文介绍了一种利用关键层分析区分正常样本和感染样本的方法，从而缓解深度神经网络的后门攻击。

Feb, 2023

无声杀手：优化后门触发器从而实现隐蔽而强大的数据投毒攻击

利用数据污染，添加即便微小干扰也能改变模型原本判断的样本分类，且添加的干扰本身难以被发现，同时在效率上有所提升的神经网络后门攻击方法。

Jan, 2023

部分训练和隔离：缓解后门攻击

观察了后门攻击的特点，本文提出了一种新的模型训练方法（PT），该方法通过冻结模型的一部分来训练能够隔离可疑样本的模型，然后在此基础上，对一个干净模型进行微调以抵抗后门攻击。

May, 2024

对抗神经元剪枝净化植入后门的深度模型

通过 Adversarial Neuron Pruning (ANP) 修复易崩溃的 DNN 神经元，即可在不影响性能的情况下去除后门攻击。

Oct, 2021

通过扰动的迁移性检测神经网络后门

研究表明深度神经网络中容易发生 backdoor 污染攻击，本文研究发现有一种有趣的特性，就是在有污染的模型中敌对扰动更容易传输从而用这个特性提出一种能在 TrojAI 基准测试中检测污染模型的方法。

Mar, 2021

数据高效后门攻击

本文提出了一种基于过滤和更新策略的深度神经网络反向攻击样本优化方法，从而提高了毒化数据的效率。通过在 CIFAR-10 和 ImageNet-10 数据集上的实验结果验证了该方法的有效性。

Apr, 2022

无敌傍门防御

我们提出了一个有效的防御框架，该框架在数据预处理过程中注入非对抗性后门，以抵御深度神经网络面对后门攻击的威胁。在多个基准测试和代表性攻击的广泛实验中，我们的方法实现了业界领先的防御效果，在干净数据上性能下降极低。鉴于我们的框架展示的惊人防御能力，我们呼吁更多关注如何利用后门进行后门防御。

Jul, 2023

防御深度神经网络后门攻击

本文研究深度神经网络面临的后门攻击问题，提出了基于 L∞规范的神经元修剪方法来消除后门，实验证明该方法成功率显著降低，并对清晰图像保持高分类准确度。

Feb, 2020