对抗神经元剪枝净化植入后门的深度模型

Oct, 2021

对抗神经元剪枝净化植入后门的深度模型

Adversarial Neuron Pruning Purifies Backdoored Deep Models

Dongxian Wu, Yisen Wang

TL;DR通过 Adversarial Neuron Pruning (ANP) 修复易崩溃的 DNN 神经元，即可在不影响性能的情况下去除后门攻击。

Abstract

As deep neural networks (DNNs) are growing larger, their requirements for computational resources become huge, which makes outsourcing training more popular. →

deep neural networks training backdoors anp neuron pruning

发现论文，激发创造

重构式神经元修剪用于后门防御

本文提出了一种新的防御方法 ——Reconstructive Neuron Pruning（RNP），它通过一种非对称重构学习过程，针对神经网络中的 backdoor 节点进行暴露和修剪，并取得了先进的防御效果。

May, 2023

思考修剪在后门缓解中的作用：优化的视角

为了解决剔除被感染深度神经网络中的后门相关神经元的问题，在现有方法的基础上，我们提出了优化神经元剪枝（ONP）方法，结合图神经网络（GNN）和强化学习（RL），通过学习图嵌入和找到适当的剪枝策略来修复后门模型。实验证明，ONP 可以在几乎没有性能降级的情况下有效剪枝由一组后门攻击植入的后门神经元，从而实现了后门缓解领域的最新最佳性能。

May, 2024

精细修剪：防御深度神经网络背门攻击

本文提出了针对深度神经网络中的后门攻击的有效防御措施，证明了单独使用修剪或微调是不足以防御复杂攻击的，但结合使用微调 - 修剪可以成功削弱或消除后门攻击，仅略微降低网络对于普通 (非触发输入) 的准确率。该研究为深度神经网络中的后门攻击提供了防御措施的第一步。

May, 2018

在数据有限的配置中减轻深度神经网络中的后门问题

通过对被污染神经元的特征进行排名，我们提出的方法可以显著降低攻击成功的几率超过 50%，即使只有极小的干净数据集，例如 CIFAR-10 数据集的十个样本，并且不会明显损害模型性能。此外，我们提出的方法比基准方法运行速度快三倍。

Nov, 2023

防御深度神经网络后门攻击

本文研究深度神经网络面临的后门攻击问题，提出了基于 L∞规范的神经元修剪方法来消除后门，实验证明该方法成功率显著降低，并对清晰图像保持高分类准确度。

Feb, 2020

通过对抗性噪声传播训练强大的深度神经网络

本篇论文提出了一种名为 Adversarial Noise Propagation 的训练算法，将噪声注入隐藏层以提高深度模型的鲁棒性，并证明不同的隐藏层对模型鲁棒性和整洁的准确性有不同的贡献。该算法可有效地与其他对抗性训练方法相结合，进一步提高模型的鲁棒性。在 MNIST、CIFAR-10、CIFAR-10-C、CIFAR-10-P 和 ImageNet 上的广泛实验表明，ANP 实现了深度模型对对抗性和受损数据均具有强大的鲁棒性，并明显优于各种对抗性防御方法。

Sep, 2019

更加自信地训练：在训练期间减轻注入和自然后门的影响

研究了深度神经网络中的后门攻击，发现了后门相关神经元和正常神经元之间的本质差异，并设计了一种新的训练方法，可以有效地防御注入后门，实验证明其效果显著。

Feb, 2022

基于幅值的神经元修剪用于后门防御

我们研究了深度神经网络中后门行为与神经元幅度之间的相关性，并提出了一种基于幅度的神经元修剪方法来检测和修剪后门神经元，实现暴露后门行为、消除后门神经元和保留干净神经元的目的，实验证明我们的修剪策略在有限数量的干净数据下实现了最先进的后门防御性能，揭示了幅度在引导后门防御中的关键作用。

May, 2024

神经注意力蒸馏：从深度神经网络中消除后门触发器

本文提出一种新的神经网络注意力蒸馏（NAD）防御框架，旨在通过训练干净数据子集的教师网络来指导含有后门的学生网络微调，以消除后门触发器，本文经验性地展示了 NAD 可有效使用仅占 5％的清洁训练数据消除后门触发器。

Jan, 2021

通过解耦训练过程进行后门防御

该论文研究发现深度神经网络易受后门攻击影响，通过自监督学习和半监督微调等方法提出了一种解决方案，通过将原来的训练过程分解成三个阶段，有效地减轻了后门攻击带来的威胁。

Feb, 2022