对抗权重扰动能否注入神经后门？

Aug, 2020

对抗权重扰动能否注入神经后门？

Can Adversarial Weight Perturbations Inject Neural Backdoors?

Siddhant Garg, Adarsh Kumar, Vibhor Goel, Yingyu Liang

TL;DR本文通过在模型权重空间中引入对抗扰动来注入 DNNs 的后门，揭示了使用公开可用的训练模型的安全风险。作者设计了一个复合损失，以通过投影梯度下降在原始模型的预测和所需触发器之间引入对抗性的权重扰动，并表明这些扰动在多项任务中都是有效的。

Abstract

adversarial machine learning has exposed several security hazards of neural models and has become an important research topic in recent times. Thus far, the concept of an "adversarial perturbation" has exclusively been used with reference to the input space referring to a small, imperc

adversarial machine learning adversarial perturbations dnns backdoors model weight perturbations

发现论文，激发创造

标签一致的后门攻击

本文利用敌对扰动和生成模型执行高效且标签一致的后门攻击，通过注入似乎合理但难以分类的输入来使模型依赖于（易于学习的）后门触发器，达到攻击的目的。

Dec, 2019

卷积神经网络模型中的后门嵌入：通过不可见扰动

本文介绍了一种特定类型的数据投毒攻击，即后门注入攻击，讨论了攻击者注入后门到深度学习模型中的方法，并提出了两种在不削弱受害者模型有效性的情况下，难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估，并证明即使在最弱的攻击者模型下，这种攻击可以在小的注入率（约为 1％）条件下实现高达 90％以上的攻击成功率。

Aug, 2018

深度学习中绕过后门检测算法

本文提出了一种对抗性的植入算法，可以绕过现有的包括最先进技术在内的检测算法，呼吁设计对抗感知的防御机制来检测后门攻击。

May, 2019

深度学习和语言模型中注入无法检测到的后门

利用密码学技术，我们研究了机器学习模型中潜在的不可检测的后门问题，探索了外部专家公司设计模型中的潜在威胁，并引入了隐写功能来扩展神经网络后门攻击到语言模型中。

Jun, 2024

WaNet-- 基于不可察觉畸变的后门攻击

本文提出了一种基于扭曲触发器的后门攻击以及一种名为 “噪声模式” 的新型训练模式，旨在使这种攻击机制对机器防御者难以检测，其结果表明，这种后门攻击比先前的方法在人类检测测试中的表现要好得多，并成功地攻击和绕过 MNIST、CIFAR-10、GTSRB 和 CelebA 等标准分类数据集上的最新的防御方法。

Feb, 2021

通过逐层权值污染对预训练模型进行后门攻击

本文提出一种更强的权重污染攻击方法，引入逐层权重污染策略以种植更深层次的后门；我们还引入一种组合式触发器，不能轻易检测。实验表明，以前的防御方法无法抵抗我们的权重污染方法，这表明我们的方法可以被广泛应用，并为未来的模型鲁棒性研究提供线索。

Aug, 2021

防御深度神经网络后门攻击

本文研究深度神经网络面临的后门攻击问题，提出了基于 L∞规范的神经元修剪方法来消除后门，实验证明该方法成功率显著降低，并对清晰图像保持高分类准确度。

Feb, 2020

对抗性权重扰动有助于稳健泛化

本文研究了通过对抗性样本训练神经网络的鲁棒性问题，提出了通过实现加权损失对抗扰动机制进行对抗性训练的方案，从而解决了加权损失在以往对抗性训练中的不足。

Apr, 2020

通过对抗性权重掩码进行单次神经后门消除

本研究提出 Adversarial Weight Masking（AWM）方法解决神经后门威胁，通过对训练数据注入触发数据样本，对敏感权重做 (软) 屏蔽，实验结果表明该方法优于现有技术提升了神经后门清除效果。

Jul, 2022

输入空间到特征表示的无感后门攻击

本文提出了一种新颖的隐形后门攻击方法，该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数，从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息，并考虑对多种最新防御措施的效果验证。

May, 2022