本文研究了深度神经网络分类器,发现存在普适的微小扰动对所有图像都造成高概率的错误分类,并提出了计算普适扰动的系统算法,证明现有神经网络非常容易受到该扰动攻击,从而出现对人眼几乎无法察觉的误分类。我们为了进一步探究这些扰动,对多个神经网络进行了实证分析并发现它们具有良好的通用性,揭示了分类器高维决策边界之间的重要几何相关性,并指出任何攻击者都可以在输入空间中利用这些单方向的存在来破坏大多数自然图像的分类器带来潜在的安全隐患。
Oct, 2016
本文通过理论分析和几何方法,探究深度神经网络在面对普适性扰动时的稳健性,并揭示了决策边界几何形态(平坦或曲线)与稳健性之间的关系,证明了在正曲率方向上存在共享决策边界的情况下,存在极小的普适性扰动。
May, 2017
本文提出了一种新的数据独立方法,可生成用于对象识别训练的多个CNN的图像无关扰动,这些扰动显示出令人惊讶的可转移性和印迹性能,并没有要求攻击者访问训练数据。
Jul, 2017
本文提出了一个Perturbation Rectifying Network (PRN)框架,通过学习实际和合成的图像通用扰动,和在PRN的输入和输出差异的离散余弦变换上独立训练的检测器,从而有效地保护深度学习网络免受任何图像的通用对抗性扰动的影响。
Nov, 2017
本篇论文针对机器学习模型中的对抗扰动问题,提出了一种新的、通用的、不依赖于数据的目标函数,通过在多个层次上损坏提取的特征来生成图像无关的对抗扰动。实验结果表明,该目标函数相比于现有的方法具有更好的鲁棒性,能够在黑盒攻击场景下有效攻击深度学习模型,从而强调当前的深度学习模型面临着风险。
Jan, 2018
本文研究的是生成通用对抗扰动和抵御这类扰动的有效方法,提出了一种简单的基于优化的通用攻击方法来降低各种网络的ImageNet上的准确性,并提出了一种通用对抗性训练来生成抗干扰的分类器。
Nov, 2018
本文探讨了对抗性训练的有效性以及在减少通用扰动和提高模型性能之间的平衡问题,并在图像分类和语义分割方面展示了结果。
Dec, 2018
本文研究深度学习中的普适性对抗扰动,探讨相关的数据驱动和数据无关的生成方法及防御技术,并讨论了普适性对抗扰动在各项深度学习任务中的应用。
May, 2020
提出了一种新的通用攻击方法CD-UAP, 可以生成一个唯一的通用扰动,以欺骗目标网络,使其错误分类只选定的类组,而对其余类组影响有限。通过基于各种损失函数配置的算法框架来设计并比较,其在各种基准数据集上进行了广泛的实验,获得了最先进的性能。
Oct, 2020
本文综述了最近在图像分类任务中的UAPs的进展,并将其分类为噪声攻击和生成器攻击,并提供了每个类别中代表性方法的全面概述,同时还评估了不同的损失函数在一致的培训框架内的各种攻击设置的有效性,最后提供了扰动的一些可视化及未来的潜在研究方向。
Jun, 2023