生成自然对抗样本

ICLROct, 2017

Generating Natural Adversarial Examples

Zhengli Zhao, Dheeru Dua, Sameer Singh

TL;DR本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Abstract

Due to their complex nature, it is hard to characterize the ways in which machine learning models can misbehave or be exploited when deployed. Recent work on adversarial examples, i.e. inputs with minor perturbations that result in substantially different model predictions, is helpful

adversarial examples generative adversarial networks black-box classifiers natural language processing semantic space

发现论文，激发创造

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

超越对抗扰动：借助流形辅助的具有合法语义的对抗样本

提出了一种有监督的语义转换生成模型，用于生成具有真实和合法语义的对抗性样本，实现了从非对抗性样本到对抗性样本的合法过渡。实验结果表明，生成的对抗性样本不仅具有更好的视觉质量，还实现了更高的攻击可迁移性和更有效的模型漏洞解释。

Feb, 2024

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

使用对抗网络生成对抗性样本

本文提出了 AdvGAN，一种使用生成对抗网络产生高感知质量的对抗样本的方法，可以更高效地生成对抗性的扰动用于敌对训练，同时在半白盒和黑盒攻击设置下，AdvGAN 都能在 MNIST 黑盒攻击竞赛中取得 92.76％的攻击成功率。

Jan, 2018

生成对抗扰动

该研究提出了新型生成模型，用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验，它证明了这种扰动具有高弄虚率和较小的扰动规模，并且比当前的迭代方法更快。

Dec, 2017

语义对抗样本

本文提出了一种新类的对抗样本 ——“语义对抗样本”，即通过对图像进行任意扰动来欺骗模型，但修改后的图像在语义上代表的仍是原始图像，通过构建约束优化问题和基于人类认知系统的形状偏置特性的对抗变换，生成对抗图像的颜色转移极大影响了 Deep neural networks 模型精度。

Mar, 2018

一种基于几何形态的攻击方法，用于生成自然语言对抗样本

本文介绍了一种用于生成自然语言对抗性样本的几何灵感攻击方法，该攻击通过迭代逼近深度神经网络（DNNs）的决策边界生成对抗性样本，并实验证明该攻击方法可以快速欺骗自然语言模型，并表明对抗训练可以提高模型对我们的攻击方法的鲁棒性。

Oct, 2020

生成（非软件）错误以愚弄分类器

本文提出了生成自然对抗样本的系统化方法，通过一些自然变化来模仿某种对象或信号，结果表明可以在图像分类模型和语音分类模型中成功生成对抗样本。

Nov, 2019

使用生成模型构建不受限制的对抗样本

本文提出了一种新的威胁模型，即无限制敌对样本。通过条件生成模型，利用辅助分类生成对抗网络（AC-GAN）对数据进行分类，搜索潜空间并生成可能是该类别的在传统敌对攻击中被误分类的图像，证明它们确实属于该类别，并表明无限制敌对样本可以绕过传统的敌对训练和认证的攻击防御方法。

May, 2018

通过语义操纵生成无限制对抗性样本

通过引入语义感知扰动来生成有效和逼真的对抗性样本，该方法在复杂数据集（如 ImageNet 和 MSCOCO）上针对图像分类和图像字幕任务进行了有效应用，且经综合用户研究证明其较其他攻击更为逼真。

Apr, 2019