预训练对抗扰动
本文提出了一个Perturbation Rectifying Network (PRN)框架,通过学习实际和合成的图像通用扰动,和在PRN的输入和输出差异的离散余弦变换上独立训练的检测器,从而有效地保护深度学习网络免受任何图像的通用对抗性扰动的影响。
Nov, 2017
针对对抗样本的防御,如对抗训练,通常针对单个干扰类型(例如小的l∞-噪声),对于其它类型的干扰,这些防御没有保障,甚至会增加模型的脆弱性。我们的目标是了解这种鲁棒性取舍背后的原因,并训练同时对多种扰动类型具有鲁棒性的模型。
Apr, 2019
研究提出了 Learn2Perturb 方法,通过引入特征扰动来提高深度神经网络的鲁棒性,旨在改善对抗攻击的问题。通过在每个层次上引入新的扰动注入模块以扰动特征空间,同时在训练和推断阶段执行特征扰动, 本文证明该方法可以提高深度神经网络对对抗攻击的鲁棒性, 在CIFAR-10和CIFAR-100数据集上的实验结果表明,该方法可以使深度神经网络对各种攻击的成功率提高4-7个百分点,并明显优于目前已知的所有防御技术。
Mar, 2020
通过对敌对学习及攻击的深入探究,我们发现在敌对性训练的模型中,用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测,为此我们提出了一种有效的防御方法,是通过制造更加有效的防御扰动方法,利用敌对训练降低了地面真实的局部Lipschitzness,同时攻击所有类别,将误导的预测转换为正确的预测,这种方法在经验实验证明有效。
Jun, 2021
本文提出一种称为meta adversarial perturbation(MAP)的新方法,可以通过一步梯度上升更新对自然图像进行模型不可知的攻击,并且实验结果表明各种先进深度神经网络都容易受到这种攻击。
Nov, 2021
论文提出了一种名为 ILPD 的新方法,通过单一阶段的优化过程,鼓励中间层扰动同时具有有效的对抗方向和巨大的幅度,以构建对抗性样本。实验结果表明,该方法在攻击各种受害者模型方面的性能大大优于现有技术,其中在 ImageNet 上平均提高了10.07%,在 CIFAR-10 上平均提高了3.88%。
Apr, 2023
本文提出了一个新颖的多扰动对抗训练框架,即参数节省的对抗训练(PSAT),强化多扰动鲁棒性的同时具有参数节省的优势,并通过使用超网络训练专门针对单一扰动的模型并集成这些专门模型以抵御多种扰动。最终,我们在不同数据集上对我们的方法与最新攻击方法进行了广泛评估和比较,显示了我们提出的方法在鲁棒性和参数效率方面的优势,例如,对于CIFAR-10数据集,以ResNet-50为骨干网络,PSAT在保持最先进的鲁棒性的基础上节省了大约80%的参数。
Sep, 2023
透过对自然样本的脆弱性进行考量,提出了两种简单、计算成本低的方法(Margin-Weighted Perturbation Budget与Standard-Deviation-Weighted Perturbation Budget),用于为Adversarial Training算法中的对抗样本分配扰动范围,实验证明这些方法有效地提升了算法的鲁棒性。
Mar, 2024
通过对深度学习模型的不同层进行敌对性扰动攻击验证,研究表明浅层的通道组合对模型的干扰较大,在不同攻击类型中具有共享的易受攻击通道组合,而不同攻击对隐藏表示的影响存在差异且与卷积核大小呈正相关,以此为基础为未来应用开发高效的应对性防御机制奠定技术基础。
May, 2024
我们展示了Vision-Language Pre-training(VLP)模型对新型的通用对抗扰动(UAP)攻击的脆弱性,并提出了一种基于多模态对齐的Contrastive-training Perturbation Generator方法,该方法在各种VLP模型和多模态任务中展现出卓越的攻击性能,并表现出出色的黑盒可迁移性。
Jun, 2024