对抗通用扰动防御

CVPRNov, 2017

Defense against Universal Adversarial Perturbations

Naveed Akhtar, Jian Liu, Ajmal Mian

TL;DR本文提出了一个 Perturbation Rectifying Network (PRN) 框架，通过学习实际和合成的图像通用扰动，和在 PRN 的输入和输出差异的离散余弦变换上独立训练的检测器，从而有效地保护深度学习网络免受任何图像的通用对抗性扰动的影响。

Abstract

Recent advances in deep learning show the existence of image-agnostic quasi-imperceptible perturbations that when applied to `any' image can fool a state-of-the-art network classifier to change its prediction about the image label. These `→

deep learning universal adversarial perturbations perturbation rectifying network perturbation detector defense

发现论文，激发创造

通用对抗扰动：一次调查

本文研究深度学习中的普适性对抗扰动，探讨相关的数据驱动和数据无关的生成方法及防御技术，并讨论了普适性对抗扰动在各项深度学习任务中的应用。

May, 2020

通用对抗扰动

本文研究了深度神经网络分类器，发现存在普适的微小扰动对所有图像都造成高概率的错误分类，并提出了计算普适扰动的系统算法，证明现有神经网络非常容易受到该扰动攻击，从而出现对人眼几乎无法察觉的误分类。我们为了进一步探究这些扰动，对多个神经网络进行了实证分析并发现它们具有良好的通用性，揭示了分类器高维决策边界之间的重要几何相关性，并指出任何攻击者都可以在输入空间中利用这些单方向的存在来破坏大多数自然图像的分类器带来潜在的安全隐患。

Oct, 2016

使用共享对抗训练来防御通用扰动

本文探讨了对抗性训练的有效性以及在减少通用扰动和提高模型性能之间的平衡问题，并在图像分类和语义分割方面展示了结果。

Dec, 2018

检测对抗性扰动

本文提出一种方法，在深度神经网络中增加一个小的 “检测器” 子网络，用于区分含有敌对扰动的假数据和不包含敌对扰动的真数据的二元分类任务，并证明其能够有效检测和对抗敌对扰动攻击。

Feb, 2017

一种计算类普遍对抗扰动的方法

该论文提出了一种基于线性函数和神经网络参数计算类特定通用对抗扰动的算法，能使大部分相同类别的图像被错误分类，同时没有训练数据和超参数，并在 ImageNet 上获得了 34% 到 51% 的欺骗率并跨模型传递。研究表明，标准和针对对抗性训练模型所学习的决策边界特征也会影响通用对抗扰动。

Dec, 2019

通用对抗训练

本文研究的是生成通用对抗扰动和抵御这类扰动的有效方法，提出了一种简单的基于优化的通用攻击方法来降低各种网络的 ImageNet 上的准确性，并提出了一种通用对抗性训练来生成抗干扰的分类器。

Nov, 2018

使用生成模型的可传递通用对抗扰动

本文提出了一种针对深度网络易受对抗扰动攻击的问题的方法，使用预训练网络生成图像无关对抗扰动（UAPs），并通过在源模型的第一层仅关注对抗能量的损失，提高了 UAPs 的传递性，并在实验中展示了该方法的优越性。

Oct, 2020

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016

使用生成模型学习通用对抗扰动

本文介绍了一种生成网络 —— 通用对抗网络，它可以在数据集中添加生成输出并欺骗目标分类器，从而提高通用对抗攻击的效果。

Aug, 2017

针对语义图像分割的通用对抗扰动

本篇论文探究如何通过生成普遍的对抗扰动，使卷积神经网络的语义图像分割结果变为预设的结果，同时还研究了去除语义图像中某个目标类别的扰动。

Apr, 2017