使用生成模型构建不受限制的对抗样本
本文提出一种新的方法,通过操作图像生成的细节方面生成无限制的对抗性样本,使用最新的生成模型学习样式和随机修改,可用于分类、语义分割和物体检测模型的有目标和非有目标的无限制攻击,并在保证人类可分辨度的前提下,能够成功地规避经认证的防御措施,同时证明在仅使用原有模型结构的情况下,本文的对抗训练方法在增进原有模型在干净图像上表现方面也有很大提升。
Nov, 2019
本文通过使用 GAN 生成无约束对抗样本并在潜空间中成功操纵潜向量以欺骗分类模型,提出了一个新的方法:Latent-HSJA,该方法在黑盒设置中只能访问分类模型的前 k 项决策,是对少量查询的分类模型强度评估的有效方法。
Aug, 2022
本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架,以验证黑盒子分类器的鲁棒性,并证明该方法可在图像分类,文本蕴含和机器翻译等广泛应用中有效。
Oct, 2017
通过引入语义感知扰动来生成有效和逼真的对抗性样本,该方法在复杂数据集(如 ImageNet 和 MSCOCO)上针对图像分类和图像字幕任务进行了有效应用,且经综合用户研究证明其较其他攻击更为逼真。
Apr, 2019
提出一种更通用的框架,该框架可以推断基于输入图像和目标标签的目标条件扰动,通过学习攻击目标与图像中的语义关系。在 MNIST 和 CIFAR10 数据集的广泛实验中,该方法实现了超越单目标攻击模型的优异性能,并以小扰动范数获得高愚弄率。
Jun, 2020
该研究提出了新型生成模型,用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验,它证明了这种扰动具有高弄虚率和较小的扰动规模,并且比当前的迭代方法更快。
Dec, 2017
本文提出了 AdvGAN,一种使用生成对抗网络产生高感知质量的对抗样本的方法,可以更高效地生成对抗性的扰动用于敌对训练,同时在半白盒和黑盒攻击设置下,AdvGAN 都能在 MNIST 黑盒攻击竞赛中取得 92.76%的攻击成功率。
Jan, 2018
提出了一种新方法 AdvDiff,使用扩散模型生成无限制的对抗样本,并通过两种新的对抗引导技术在扩散模型的逆生成过程中进行对抗采样,实现了高质量、逼真的对抗样本生成。实验证明,AdvDiff 在攻击性能和生成质量方面优于基于 GAN 的方法。
Jul, 2023
本文提出了一种通用方法 - 对抗生成网络(AGNs),通过训练一个生成器神经网络输出满足特定目标的对抗样本来解决扰动图像误分类的问题,并在两个应用领域进行了演示。
Dec, 2017