使用深度强化模型为文本分类器生成黑盒对抗样本

Sep, 2019

使用深度强化模型为文本分类器生成黑盒对抗样本

Generating Black-Box Adversarial Examples for Text Classifiers Using a Deep Reinforced Model

Prashanth Vijayaraghavan, Deb Roy

TL;DR提出了一种基于强化学习的方法，在黑盒设置中生成对抗性示例，能够成功地欺骗针对IMDB情感分类任务和AG新闻语料库新闻分类任务的模型，并且生成的对抗示例保留了原始文本的语义。

Abstract

Recently, generating adversarial examples has become an important means of measuring robustness of a deep learning model. adversarial examples

发现论文，激发创造

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

DANCin SEQ2SEQ: 使用对抗文本样本生成欺骗文本分类器

本研究提出 DANCin SEQ2SEQ，一种基于强化学习的算法来生成文本领域黑盒分类器的对抗样本，旨在探究模型的假设与漏洞。实验表明该算法能够初步但有前途地生成有意义的对抗性文本样本。

Dec, 2017

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在20名人类注释者中得到92.3%的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

在释义识别中使用共享单词的鲁棒性

本文研究自然语言处理模型的健壮性问题，尤其是同义词识别模型在面对修改后的场景下健壮性存在显著问题。通过引入新的共享词汇的修改方式，结合优化算法，进行了大量实验验证。最后，着重讲解了对抗训练方法对提升模型健壮性的帮助。

Sep, 2019

基于BERT的文本分类对抗样本

本研究提出了一种基于BERT掩码语言模型的背后攻击方法（BAE），用于生成自然、语义和语法准确的对抗性示例，比目前基于规则的同义词替换策略生成的对抗性示例更具攻击性。

Apr, 2020

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过crowdsourcing实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

文本分类器的对抗攻击的约束执行奖励

通过强化学习算法训练的编码器-解码器重述模型生成多样化的对抗性示例，在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型，并且总体上比其他竞争性攻击更有效，同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。

May, 2024

评估文本分类对词性对抗样本的鲁棒性

本研究针对文本分类系统在对抗样本面前表现不佳的问题，探索了不同词性对分类器的影响。通过实验，发现CNN算法对某些词性标记存在明显的偏见，揭示了其在语言处理能力方面的关键脆弱性。这一发现为提升文本分类系统的鲁棒性提供了新的视角和改进方向。

Aug, 2024