预训练对抗扰动

Oct, 2022

Pre-trained Adversarial Perturbations

Yuanhao Ban, Yinpeng Dong

TL;DR本文提出了一种用于生成预训练模型对抗攻击的通用扰动 Pre-trained Adversarial Perturbations (PAPs) 方法，其中采用低级层提升攻击 (Low-Level Layer Lifting Attack, L4A) 的方法来生成扰动，并结合增强的噪声增广策略生成更具可传递性的 PAPs，实验证明我们的方法比现有方法在攻击成功率方面有了大幅度提高。

Abstract

self-supervised pre-training has drawn increasing attention in recent years due to its superior performance on numerous downstream tasks after fine-tuning. However, it is well-known that deep learning models lack the robustness to →

发现论文，激发创造

对抗通用扰动防御

本文提出了一个Perturbation Rectifying Network (PRN)框架，通过学习实际和合成的图像通用扰动，和在PRN的输入和输出差异的离散余弦变换上独立训练的检测器，从而有效地保护深度学习网络免受任何图像的通用对抗性扰动的影响。

Nov, 2017

多扰动下的对抗训练和鲁棒性

针对对抗样本的防御，如对抗训练，通常针对单个干扰类型（例如小的l∞-噪声），对于其它类型的干扰，这些防御没有保障，甚至会增加模型的脆弱性。我们的目标是了解这种鲁棒性取舍背后的原因，并训练同时对多种扰动类型具有鲁棒性的模型。

Apr, 2019

Learn2Perturb：一种端到端的特征扰动学习方法，提高对抗鲁棒性

研究提出了 Learn2Perturb 方法，通过引入特征扰动来提高深度神经网络的鲁棒性，旨在改善对抗攻击的问题。通过在每个层次上引入新的扰动注入模块以扰动特征空间，同时在训练和推断阶段执行特征扰动，本文证明该方法可以提高深度神经网络对对抗攻击的鲁棒性，在CIFAR-10和CIFAR-100数据集上的实验结果表明，该方法可以使深度神经网络对各种攻击的成功率提高4-7个百分点，并明显优于目前已知的所有防御技术。

Mar, 2020

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021

元对抗扰动

本文提出一种称为meta adversarial perturbation（MAP）的新方法，可以通过一步梯度上升更新对自然图像进行模型不可知的攻击，并且实验结果表明各种先进深度神经网络都容易受到这种攻击。

Nov, 2021

通过中间层干扰衰减来提高对抗性可迁移性

论文提出了一种名为 ILPD 的新方法，通过单一阶段的优化过程，鼓励中间层扰动同时具有有效的对抗方向和巨大的幅度，以构建对抗性样本。实验结果表明，该方法在攻击各种受害者模型方面的性能大大优于现有技术，其中在 ImageNet 上平均提高了10.07％，在 CIFAR-10 上平均提高了3.88％。

Apr, 2023

参数节省的对抗训练：通过超网络增强多扰动鲁棒性

本文提出了一个新颖的多扰动对抗训练框架，即参数节省的对抗训练（PSAT），强化多扰动鲁棒性的同时具有参数节省的优势，并通过使用超网络训练专门针对单一扰动的模型并集成这些专门模型以抵御多种扰动。最终，我们在不同数据集上对我们的方法与最新攻击方法进行了广泛评估和比较，显示了我们提出的方法在鲁棒性和参数效率方面的优势，例如，对于CIFAR-10数据集，以ResNet-50为骨干网络，PSAT在保持最先进的鲁棒性的基础上节省了大约80%的参数。

Sep, 2023

利用弱点感知扰动预算改进对抗训练

透过对自然样本的脆弱性进行考量，提出了两种简单、计算成本低的方法(Margin-Weighted Perturbation Budget与Standard-Deviation-Weighted Perturbation Budget)，用于为Adversarial Training算法中的对抗样本分配扰动范围，实验证明这些方法有效地提升了算法的鲁棒性。

Mar, 2024

调查和揭示卷积神经网络对对抗扰动的特征级漏洞

通过对深度学习模型的不同层进行敌对性扰动攻击验证，研究表明浅层的通道组合对模型的干扰较大，在不同攻击类型中具有共享的易受攻击通道组合，而不同攻击对隐藏表示的影响存在差异且与卷积核大小呈正相关，以此为基础为未来应用开发高效的应对性防御机制奠定技术基础。

May, 2024

一个扰动就足够了：关于生成对抗视觉语言预训练模型的通用对抗扰动

我们展示了Vision-Language Pre-training（VLP）模型对新型的通用对抗扰动（UAP）攻击的脆弱性，并提出了一种基于多模态对齐的Contrastive-training Perturbation Generator方法，该方法在各种VLP模型和多模态任务中展现出卓越的攻击性能，并表现出出色的黑盒可迁移性。

Jun, 2024