通用对抗扰动

CVPROct, 2016

Universal adversarial perturbations

Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawzi, Pascal Frossard

TL;DR本文研究了深度神经网络分类器，发现存在普适的微小扰动对所有图像都造成高概率的错误分类，并提出了计算普适扰动的系统算法，证明现有神经网络非常容易受到该扰动攻击，从而出现对人眼几乎无法察觉的误分类。我们为了进一步探究这些扰动，对多个神经网络进行了实证分析并发现它们具有良好的通用性，揭示了分类器高维决策边界之间的重要几何相关性，并指出任何攻击者都可以在输入空间中利用这些单方向的存在来破坏大多数自然图像的分类器带来潜在的安全隐患。

Abstract

Given a state-of-the-art deep neural network classifier, we show the existence of a universal (image-agnostic) and very small perturbation vector that causes natural images to be misclassified with high probability. We propose a systematic algorithm for computing →

deep neural network universal perturbations image misclassification vulnerability security breaches

发现论文，激发创造

通用对抗扰动：一次调查

本文研究深度学习中的普适性对抗扰动，探讨相关的数据驱动和数据无关的生成方法及防御技术，并讨论了普适性对抗扰动在各项深度学习任务中的应用。

May, 2020

使用共享对抗训练来防御通用扰动

本文探讨了对抗性训练的有效性以及在减少通用扰动和提高模型性能之间的平衡问题，并在图像分类和语义分割方面展示了结果。

Dec, 2018

奇异向量的艺术与通用对抗扰动

本文探讨了深度神经网络的漏洞和通用扰动，结果表明通过计算神经网络隐藏层 Jacobian 矩阵的 (p, q) 奇异向量，可以构建出存在有趣视觉模式的通用扰动，并且只使用 64 张图像，就可以在包含 50000 张图像的数据集上构建出具有超过 60％的愚弄率，同时证明了构造的扰动可以推广到其他网络。

Sep, 2017

一种计算类普遍对抗扰动的方法

该论文提出了一种基于线性函数和神经网络参数计算类特定通用对抗扰动的算法，能使大部分相同类别的图像被错误分类，同时没有训练数据和超参数，并在 ImageNet 上获得了 34% 到 51% 的欺骗率并跨模型传递。研究表明，标准和针对对抗性训练模型所学习的决策边界特征也会影响通用对抗扰动。

Dec, 2019

对抗通用扰动防御

本文提出了一个 Perturbation Rectifying Network (PRN) 框架，通过学习实际和合成的图像通用扰动，和在 PRN 的输入和输出差异的离散余弦变换上独立训练的检测器，从而有效地保护深度学习网络免受任何图像的通用对抗性扰动的影响。

Nov, 2017

分类器对于通用扰动的稳健性：几何视角

本文通过理论分析和几何方法，探究深度神经网络在面对普适性扰动时的稳健性，并揭示了决策边界几何形态（平坦或曲线）与稳健性之间的关系，证明了在正曲率方向上存在共享决策边界的情况下，存在极小的普适性扰动。

May, 2017

针对语义图像分割的通用对抗扰动

本篇论文探究如何通过生成普遍的对抗扰动，使卷积神经网络的语义图像分割结果变为预设的结果，同时还研究了去除语义图像中某个目标类别的扰动。

Apr, 2017

通用对抗训练

本文研究的是生成通用对抗扰动和抵御这类扰动的有效方法，提出了一种简单的基于优化的通用攻击方法来降低各种网络的 ImageNet 上的准确性，并提出了一种通用对抗性训练来生成抗干扰的分类器。

Nov, 2018

使用生成模型学习通用对抗扰动

本文介绍了一种生成网络 —— 通用对抗网络，它可以在数据集中添加生成输出并欺骗目标分类器，从而提高通用对抗攻击的效果。

Aug, 2017

通用对抗性音频扰动

本文展示了普适对抗扰动的存在，基于一些新提出的方法，使用惩罚公式可以成功实现针对音频分类体系结构的有目标攻击和无目标攻击。

Aug, 2019