评估文本分类对词性对抗样本的鲁棒性

Aug, 2024

评估文本分类对词性对抗样本的鲁棒性

Evaluating Text Classification Robustness to Part-of-Speech Adversarial Examples

Anahita Samadi, Allison Sullivan

TL;DR本研究针对文本分类系统在对抗样本面前表现不佳的问题，探索了不同词性对分类器的影响。通过实验，发现CNN算法对某些词性标记存在明显的偏见，揭示了其在语言处理能力方面的关键脆弱性。这一发现为提升文本分类系统的鲁棒性提供了新的视角和改进方向。

Abstract

As machine learning systems become more widely used, especially for safety critical applications, there is a growing need to ensure that these systems behave as intended, even in the face of Adversarial Examples. Advers

发现论文，激发创造

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在20名人类注释者中得到92.3%的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

文本中健壮的深度神经网络: 一项调查

本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查，并基于干扰单位对现有的对抗技术进行分类，从不同的自然语言处理任务的视角介绍了对抗技术，并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。

Feb, 2019

使用深度强化模型为文本分类器生成黑盒对抗样本

提出了一种基于强化学习的方法，在黑盒设置中生成对抗性示例，能够成功地欺骗针对IMDB情感分类任务和AG新闻语料库新闻分类任务的模型，并且生成的对抗示例保留了原始文本的语义。

Sep, 2019

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过crowdsourcing实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

识别文本分类器的对抗攻击

本文为对文本分类器对抗攻击的取证研究提供了第一步，通过分析对抗文本来确定其创建方法，提供了一个广泛的攻击检测和标记数据集，使用该数据集开发和基准测试攻击识别的多个分类器，并展示了三类特征对这些任务的有效性。

Jan, 2022

通过鲁棒密度估计进行文本分类中词语对抗样本的检测：基准和基础线

本文旨在探索检测针对NLP模型的对抗攻击的方法，提出基于密度估计的Competitive Baseline，并提供包括4个数据集上4种流行攻击方法和4种模型在内的数据集，以便进一步研究。

Mar, 2022

基于数据表示的分布特征检测文本对抗攻击样本

本文提出两种反应式方法来检测NLP中的文字对抗样本，使用分布特征学习表示的LID和MDRE方法取得了IMDB和MultiNLI数据集上字符级、词级、短语级攻击领域的最新成果。

Apr, 2022

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024