对抗神经元剪枝净化植入后门的深度模型
本文提出了一种新的防御方法 ——Reconstructive Neuron Pruning(RNP),它通过一种非对称重构学习过程,针对神经网络中的 backdoor 节点进行暴露和修剪,并取得了先进的防御效果。
May, 2023
为了解决剔除被感染深度神经网络中的后门相关神经元的问题,在现有方法的基础上,我们提出了优化神经元剪枝(ONP)方法,结合图神经网络(GNN)和强化学习(RL),通过学习图嵌入和找到适当的剪枝策略来修复后门模型。实验证明,ONP 可以在几乎没有性能降级的情况下有效剪枝由一组后门攻击植入的后门神经元,从而实现了后门缓解领域的最新最佳性能。
May, 2024
本文提出了针对深度神经网络中的后门攻击的有效防御措施,证明了单独使用修剪或微调是不足以防御复杂攻击的,但结合使用微调 - 修剪可以成功削弱或消除后门攻击,仅略微降低网络对于普通 (非触发输入) 的准确率。该研究为深度神经网络中的后门攻击提供了防御措施的第一步。
May, 2018
通过对被污染神经元的特征进行排名,我们提出的方法可以显著降低攻击成功的几率超过 50%,即使只有极小的干净数据集,例如 CIFAR-10 数据集的十个样本,并且不会明显损害模型性能。此外,我们提出的方法比基准方法运行速度快三倍。
Nov, 2023
本篇论文提出了一种名为 Adversarial Noise Propagation 的训练算法,将噪声注入隐藏层以提高深度模型的鲁棒性,并证明不同的隐藏层对模型鲁棒性和整洁的准确性有不同的贡献。该算法可有效地与其他对抗性训练方法相结合,进一步提高模型的鲁棒性。在 MNIST、CIFAR-10、CIFAR-10-C、CIFAR-10-P 和 ImageNet 上的广泛实验表明,ANP 实现了深度模型对对抗性和受损数据均具有强大的鲁棒性,并明显优于各种对抗性防御方法。
Sep, 2019
研究了深度神经网络中的后门攻击,发现了后门相关神经元和正常神经元之间的本质差异,并设计了一种新的训练方法,可以有效地防御注入后门,实验证明其效果显著。
Feb, 2022
我们研究了深度神经网络中后门行为与神经元幅度之间的相关性,并提出了一种基于幅度的神经元修剪方法来检测和修剪后门神经元,实现暴露后门行为、消除后门神经元和保留干净神经元的目的,实验证明我们的修剪策略在有限数量的干净数据下实现了最先进的后门防御性能,揭示了幅度在引导后门防御中的关键作用。
May, 2024
本文提出一种新的神经网络注意力蒸馏(NAD)防御框架,旨在通过训练干净数据子集的教师网络来指导含有后门的学生网络微调,以消除后门触发器,本文经验性地展示了 NAD 可有效使用仅占 5%的清洁训练数据消除后门触发器。
Jan, 2021
该论文研究发现深度神经网络易受后门攻击影响,通过自监督学习和半监督微调等方法提出了一种解决方案,通过将原来的训练过程分解成三个阶段,有效地减轻了后门攻击带来的威胁。
Feb, 2022