自然对手：自然对手是否能像人工对手一样有效？

EMNLPNov, 2022

自然对手：自然对手是否能像人工对手一样有效？

NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as Artificial Adversaries?

Saadia Gabriel, Hamid Palangi, Yejin Choi

TL;DR本篇论文提出了一种两阶段对抗性样本生成框架（NaturalAdversaries），利用 token attribution 方法和生成模型，生成真实的自然语言文本，可以模拟在实际场景下模型的错误分类情况，概括了当前神经文本分类模型鲁棒性改进方向的研究前景。

Abstract

While a substantial body of prior work has explored adversarial example generation for natural language understanding tasks, these examples are often unrealistic and diverge from the real-world data distributions. In this work, we introduce a two-stage →

adversarial example generation natural language understanding neural text classification token attribution generative model

发现论文，激发创造

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

识别生成单词级对抗样本的人类策略

本研究分析了人类如何生成针对细调 Transformer 模型的自然性和语法正确性保持的词级对抗性示例，通过探索人类工作者在生成过程中的行为模式，我们识别出人类更喜欢选择哪些单词进行对抗替换以及何时何地进行替换。研究结果可用于启发利用人类策略制定更强大的自然语言处理模型。

Oct, 2022

一种基于几何形态的攻击方法，用于生成自然语言对抗样本

本文介绍了一种用于生成自然语言对抗性样本的几何灵感攻击方法，该攻击通过迭代逼近深度神经网络（DNNs）的决策边界生成对抗性样本，并实验证明该攻击方法可以快速欺骗自然语言模型，并表明对抗训练可以提高模型对我们的攻击方法的鲁棒性。

Oct, 2020

重新评估自然语言中的对抗样本

通过分析最先进程序的同义词替换攻击，本文提出了成功自然语言攻击的定义 —— 伪造的文本必须欺骗模型、遵守一些语言约束，并发现其扰动往往不能保持语义，而人类调查表明交换词汇的嵌入和原始 / 扰动句子的句子编码之间的最小余弦相似性应显著提高以保持有效的语义性和语法性，一旦应用了相应的限制成功率会下降 70%。

Apr, 2020

利用目标信息的文本对抗攻击的改进和提升

本文研究了利用目标模型输出和数据对攻击率和查询率的影响，并表明两者都可以提高，同时附加查询的开销有限。

Apr, 2021

自然语言模型对抗性评估

本文提出了一种用于评估自然语言处理模型的新的抽象框架，通过明确研究人员之间的某些对抗角色，这有助于定义不同角色在评估中的贡献，并鼓励更早的错误分析，这个框架可以用多种方式实例化，并模拟一些熟悉的内部和外部评估以及一些新的评估。

Jul, 2012

使用自然触发器的通用文本对抗攻击

利用对抗正则化自编码器 (ARAE) 和梯度搜索等技术，对现代文本分类器进行了对抗攻击，生成的词组比先前模型更接近自然的英语短语，并能在被加入到输入文本后成功混淆分类器，并且难以被自动检测或人为辨识。该研究的目的是展示对抗攻击可以比先前认为的更难被检测到，并推动防御技术的发展。

May, 2020

强制生成不一致的自然语言解释

为增加人工智能系统的信任度，本研究探索设计神经模型以生成自然语言解释来解释其预测结果。然而，本研究发现这些模型有生成自相矛盾的解释风险，因此引入了一个简单而有效的对抗性框架来检测模型对于自相矛盾自然语言解释的生成情况，并将其应用于一种前沿的神经人工智能模型中。

Oct, 2019