超越 ImageNet 攻击:面向黑盒领域的对抗性样本制作
本研究首次证明存在领域不变的对抗性攻击,提出了一个用于在不同领域中高度转移的攻击框架,核心是一个可生成网络,具有相对论监督信号,能够实现领域不变的扰动。该方法在白盒和黑盒情况下均创新了欺骗率的最佳性能,并且尽管它是一个无实例特定扰动的函数,但优于传统上更强的实例特定攻击方法。
May, 2019
本文提出了一种通过建立中间层次的线性映射以增强基线对抗样本的黑盒可迁移性的方法,实现了在 CIFAR-100 和 ImageNet 上的实验验证以及比之前的最新技术表现强大。
Aug, 2020
本文提出了使用贝叶斯模型对深度神经网络的对抗样本进行攻击的方法,并通过实验验证了其在改善模型迁移性方面的有效性以及攻击效果,攻击成功率平均提升约 19%。
Feb, 2023
本文首次对大规模数据集和大型模型进行了对抗样本的可迁移性的研究,同时也是首次研究了设计有目标的对抗样本在其目标标签之间的可转移性。通过新颖的集成方法,本文发现大量有目标的对抗样本可以成功地与其目标标签一起转移,并且这些使用集成方法生成的对抗样本可以成功地攻击黑匣子图像分类系统 Clarifai.com。
Nov, 2016
通过建立新的评估准则,我们在 ImageNet 上对 23 种典型攻击与 9 种代表性防御进行了首次大规模的可传递对抗样本评估,发现既有的评估存在误导性结论和遗漏点,从而阻碍了该领域的实际进展评估。
Oct, 2023
本文提出了一种翻译不变攻击方法,该方法利用一个翻译图像集合上的扰动以生成更易于转移的对抗示例,并表明该方法通常适用于任何梯度攻击方法。作者在 ImageNet 数据集上广泛实验验证了该方法的有效性,并证明该攻击技术的存在不安全性。
Apr, 2019
对机器学习模型的黑盒攻击是可能的,即使它们的结构不同。通过生成对抗性样本,并利用受害者模型标记合成训练集,攻击者可以训练出自己的替代模型,并将对抗性样本转移到受害者模型中实施攻击,该方法可以使用新的技术使攻击过程更加有效率,在 Amazon 和 Google 等公司的商业机器学习分类系统中展示了攻击的有效性。
May, 2016
利用多样化的输入模式来生成对抗样本,实现更好的对抗样本传递性,评估该方法在不同防御方法下的对抗成功率,并在 NIPS 2017 对抗比赛中获得了 73.0% 的平均成功率,从而提高了对抗攻击的基准线。
Mar, 2018
本文提出了一种新的黑盒对抗攻击方法,通过使用预训练模型学习低维嵌入,然后在此嵌入空间内进行高效搜索,从而攻击未知目标网络。该方法能够生成具有高级语义模式的对抗性扰动,易于迁移,可大大提高黑盒对抗攻击的查询效率。作者在 MNIST、ImageNet 和 Google Cloud Vision API 上进行评估,并在 CIFAR10 和 ImageNet 上攻击对抗性防御网络,取得了良好的攻击效果。
Nov, 2019