CVPRNov, 2017
对抗通用扰动防御
Defense against Universal Adversarial Perturbations
Naveed Akhtar, Jian Liu, Ajmal Mian
TL;DR本文提出了一个 Perturbation Rectifying Network (PRN) 框架,通过学习实际和合成的图像通用扰动,和在 PRN 的输入和输出差异的离散余弦变换上独立训练的检测器,从而有效地保护深度学习网络免受任何图像的通用对抗性扰动的影响。
Abstract
Recent advances in deep learning show the existence of image-agnostic
quasi-imperceptible perturbations that when applied to `any' image can fool a
state-of-the-art network classifier to change its prediction about the image
label. These `→
deep learninguniversal adversarial perturbationsperturbation rectifying networkperturbation detectordefense
发现论文,激发创造
通用对抗扰动
本文研究了深度神经网络分类器,发现存在普适的微小扰动对所有图像都造成高概率的错误分类,并提出了计算普适扰动的系统算法,证明现有神经网络非常容易受到该扰动攻击,从而出现对人眼几乎无法察觉的误分类。我们为了进一步探究这些扰动,对多个神经网络进行了实证分析并发现它们具有良好的通用性,揭示了分类器高维决策边界之间的重要几何相关性,并指出任何攻击者都可以在输入空间中利用这些单方向的存在来破坏大多数自然图像的分类器带来潜在的安全隐患。
Oct, 2016
检测对抗性扰动
本文提出一种方法,在深度神经网络中增加一个小的 “检测器” 子网络,用于区分含有敌对扰动的假数据和不包含敌对扰动的真数据的二元分类任务,并证明其能够有效检测和对抗敌对扰动攻击。
Feb, 2017
一种计算类普遍对抗扰动的方法
该论文提出了一种基于线性函数和神经网络参数计算类特定通用对抗扰动的算法,能使大部分相同类别的图像被错误分类,同时没有训练数据和超参数,并在 ImageNet 上获得了 34% 到 51% 的欺骗率并跨模型传递。研究表明,标准和针对对抗性训练模型所学习的决策边界特征也会影响通用对抗扰动。
Dec, 2019
通用对抗训练
本文研究的是生成通用对抗扰动和抵御这类扰动的有效方法,提出了一种简单的基于优化的通用攻击方法来降低各种网络的 ImageNet 上的准确性,并提出了一种通用对抗性训练来生成抗干扰的分类器。
Nov, 2018
使用生成模型的可传递通用对抗扰动
本文提出了一种针对深度网络易受对抗扰动攻击的问题的方法,使用预训练网络生成图像无关对抗扰动(UAPs),并通过在源模型的第一层仅关注对抗能量的损失,提高了 UAPs 的传递性,并在实验中展示了该方法的优越性。
Oct, 2020