文本对抗样本的生成

Jul, 2017

Towards Crafting Text Adversarial Samples

Suranjana Samanta, Sameep Mehta

TL;DR本文提出一种基于文本样本的对抗样本生成算法，通过删除、替换或添加一些关键词来修改原始的文本样本，解决了检测对抗样本的难题，并且通过在 IMDB 电影评论数据集进行实验，证明了本文所提出的方法的有效性。

Abstract

adversarial samples are strategically modified samples, which are crafted with the purpose of fooling a classifier at hand. An attacker introduces specially crafted →

adversarial samples classifier text samples modification meaningful sentences

发现论文，激发创造

深度文本分类存在欺诈性

本文介绍了一种有效的方法来生成文本对抗样本，证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本，可以识别用于分类的文本信息，基于这些信息，设计了三种扰动策略（插入、修改、删除）来生成对抗样本。实验表明，基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器，并且可以扰动到任意的分类类别而不影响其实用性，同时所引入的扰动难以被发现。

Apr, 2017

通过条件性 BERT 抽样改写有意义的句子及其欺骗文本分类器应用

本文提出了一个名为 ParaphraseSampler 的新样本采样技术，通过进行句子级别的改写，应用了一种新的修改标准 —— 句子级威胁模型，并在 6 个数据集上进行了实验。结果表明，许多重写的句子都被分类器误分类，并且我们的 ParaphraseSampler 比基线攻击成功率更高。

Oct, 2020

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

用最小扰动生成文本对抗样本

本文提出了一种新的对抗攻击策略，旨在找到与原始文本相似度极高的对抗文本，同时引入最小扰动；实验结果表明，与现有攻击方法相比，我们的方法在四个基准数据集上的成功率更高，扰动率更低。

Nov, 2022

通过分析文本复杂度识别对抗性句子

该研究探讨了对抗文本的特点和区别，并提出了一种基于特征提取的识别方法，在准确率和错误率方面都优于现有方法。

Dec, 2019

深度神经网络恶意软件分类的对抗扰动

该研究针对深度神经网络在恶意软件分类中存在的漏洞，通过对对抗样本进行有效构建的攻击，探讨如何构建在样本生成方面更具挑战性的更安全的模型。该研究表明，在对抗样本的制作方面，恶意软件分类与计算机视觉领域之间存在巨大的差异。本文还评估了潜在的防御机制对恶意软件分类的影响，并发现对抗样本的蒸馏和重新训练可以带来很有前途的结果。

Jun, 2016

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

识别文本分类器的对抗攻击

本文为对文本分类器对抗攻击的取证研究提供了第一步，通过分析对抗文本来确定其创建方法，提供了一个广泛的攻击检测和标记数据集，使用该数据集开发和基准测试攻击识别的多个分类器，并展示了三类特征对这些任务的有效性。

Jan, 2022

对抗性扰动为什么应该是不可察觉的？重新思考对抗性自然语言处理的研究范式

本文重新思考了 Textual Adversarial Samples 在安全场景下的研究范式，提出了安全导向的对抗性 NLP (Security-oriented adversarial NLP，SoadNLP) 的研究重点应该放在考虑真实的对手目标，并以此为基础设计实际有用的攻击和防御方法，为此我们创建了一个新的数据集 Advbench，并提出了可通过启发式规则简单实现真实对手目标的方法。通过实验，我们的方法表现获得了更高的实际价值，为 SoadNLP 的研究提供了一个新的基准。

Oct, 2022

文本中健壮的深度神经网络：一项调查

本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查，并基于干扰单位对现有的对抗技术进行分类，从不同的自然语言处理任务的视角介绍了对抗技术，并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。

Feb, 2019