使用生成模型构建不受限制的对抗样本

May, 2018

使用生成模型构建不受限制的对抗样本

Constructing Unrestricted Adversarial Examples with Generative Models

Yang Song, Rui Shu, Nate Kushman, Stefano Ermon

TL;DR本文提出了一种新的威胁模型，即无限制敌对样本。通过条件生成模型，利用辅助分类生成对抗网络（AC-GAN）对数据进行分类，搜索潜空间并生成可能是该类别的在传统敌对攻击中被误分类的图像，证明它们确实属于该类别，并表明无限制敌对样本可以绕过传统的敌对训练和认证的攻击防御方法。

Abstract

adversarial examples are typically constructed by perturbing an existing data point within a small matrix norm, and current defense methods are focused on guarding against this type of attack. In this paper, we propose unrestricted →

adversarial examples unrestricted threat model conditional generative models auxiliary classifier generative adversarial network (ac-gan)classification

发现论文，激发创造

无限制对抗样本的细粒度合成

本文提出一种新的方法，通过操作图像生成的细节方面生成无限制的对抗性样本，使用最新的生成模型学习样式和随机修改，可用于分类、语义分割和物体检测模型的有目标和非有目标的无限制攻击，并在保证人类可分辨度的前提下，能够成功地规避经认证的防御措施，同时证明在仅使用原有模型结构的情况下，本文的对抗训练方法在增进原有模型在干净图像上表现方面也有很大提升。

Nov, 2019

使用有限的查询和 GAN 进行无限制黑盒对抗攻击

本文通过使用 GAN 生成无约束对抗样本并在潜空间中成功操纵潜向量以欺骗分类模型，提出了一个新的方法：Latent-HSJA，该方法在黑盒设置中只能访问分类模型的前 k 项决策，是对少量查询的分类模型强度评估的有效方法。

Aug, 2022

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

通过语义操纵生成无限制对抗性样本

通过引入语义感知扰动来生成有效和逼真的对抗性样本，该方法在复杂数据集（如 ImageNet 和 MSCOCO）上针对图像分类和图像字幕任务进行了有效应用，且经综合用户研究证明其较其他攻击更为逼真。

Apr, 2019

GAP++: 学习生成目标条件下对抗性样本

提出一种更通用的框架，该框架可以推断基于输入图像和目标标签的目标条件扰动，通过学习攻击目标与图像中的语义关系。在 MNIST 和 CIFAR10 数据集的广泛实验中，该方法实现了超越单目标攻击模型的优异性能，并以小扰动范数获得高愚弄率。

Jun, 2020

ImageNet 比赛中的无限制对抗攻击

该研究旨在探索更有效的无限制对抗性攻击算法，以加快在更强的无边界攻击下的模型稳健性的学术研究，并组织了一项比赛来促进此领域的发展。

Oct, 2021

生成对抗扰动

该研究提出了新型生成模型，用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验，它证明了这种扰动具有高弄虚率和较小的扰动规模，并且比当前的迭代方法更快。

Dec, 2017

使用对抗网络生成对抗性样本

本文提出了 AdvGAN，一种使用生成对抗网络产生高感知质量的对抗样本的方法，可以更高效地生成对抗性的扰动用于敌对训练，同时在半白盒和黑盒攻击设置下，AdvGAN 都能在 MNIST 黑盒攻击竞赛中取得 92.76％的攻击成功率。

Jan, 2018

AdvDiff：使用扩散模型生成无限制的对抗样本

提出了一种新方法 AdvDiff，使用扩散模型生成无限制的对抗样本，并通过两种新的对抗引导技术在扩散模型的逆生成过程中进行对抗采样，实现了高质量、逼真的对抗样本生成。实验证明，AdvDiff 在攻击性能和生成质量方面优于基于 GAN 的方法。

Jul, 2023

带有目标的对抗样本的通用框架

本文提出了一种通用方法 - 对抗生成网络（AGNs），通过训练一个生成器神经网络输出满足特定目标的对抗样本来解决扰动图像误分类的问题，并在两个应用领域进行了演示。

Dec, 2017