深度学习文本分类算法对实际输入扰动的敏感性研究

Jan, 2022

深度学习文本分类算法对实际输入扰动的敏感性研究

On Sensitivity of Deep Learning Based Text Classification Algorithms to Practical Input Perturbations

Aamir Miyajiwala, Arnav Ladkat, Samiksha Jagadale, Raviraj Joshi

TL;DR本文研究基于深度学习的文本分类模型（CNN、LSTM 和 BERT）在面对有意义但与最终性能无关的输入扰动（如标点符号和停用词）时的表现，发现包括 BERT 在内的这类模型都很敏感，特别是对于输入扰动的删除尤其受影响。

Abstract

text classification is a fundamental Natural Language Processing task that has a wide variety of applications, where deep learning approaches have produced state-of-the-art results. While these models have been h

text classification deep learning input perturbations bert performance evaluation

发现论文，激发创造

评估神经语言模型对输入干扰的鲁棒性

我们研究了在现实世界中输入文本可能有噪音或不同于 NLP 系统训练数据分布的情景，通过各种类型的字符级和单词级扰动方法来模拟这种情况，发现语言模型对输入扰动非常敏感，即使引入了很小的变化，其性能也会下降，需要进一步改进模型并对扰动输入进行评估以更加真实地了解 NLP 系统的鲁棒性。

Aug, 2021

解读神经自然语言处理模型对文本扰动的鲁棒性

研究现代自然语言处理模型中对于不同的输入扰动如何表现更差，进而发现一个模型对于未知文本扰动的鲁棒性较低的原因是模型未很好地学习到如何识别这些扰动。

Oct, 2021

穿越黑暗：揭示现代 AI 内容检测器的有效干扰

利用机器学习模型对文章进行自动生成的大语言模型，在知识产权保护、个人隐私和学术诚信方面引发了关注。AI 文本检测系统目前存在鲁棒性不足和难以有效区分扰动文本的问题。本研究通过模拟真实场景，评估当前检测模型在实际应用中的性能，并构建了 12 种黑盒文本扰动方法来评估检测模型的鲁棒性。此外，通过对抗学习实验，研究扰动数据增强对 AI 文本检测器鲁棒性的影响。

Jun, 2024

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

随机文本扰动的效果有时有效

探究数据增广方法在 NLP 中的效果和可泛化性，通过三个二进制文本匹配分类任务的大规模实验发现，随机文本扰动作为数据增广能给神经分类模型的测试集性能带来正面和负面的影响，具体取决于模型是否足够训练原始训练例子，但这与是否同时或分别应用五个随机文本编辑操作无关，研究强烈暗示随机文本扰动的效果任务特定，而不是普遍积极的。

Sep, 2022

使用随机扰动减缓情感分析模型的对抗攻击

本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案，包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。

Feb, 2022

通过人为扰动在线评估内容审核机器学习模型

本文提出了一种包含人为写作的扰动，用于评估社交媒体上毒性发言检测模型的效果，并测试了该测试集在深度学习　(BERT 和 RoBERTa) 和黑盒 API（如 Perspective API）上的表现，结果表明带有真实人为扰动的对抗攻击仍然有效。

Mar, 2023

基于数据驱动的对抗文本扰动缓解

本文提出了一种使用 deobfuscation 和 CW2V 嵌入的强健分类管道，用于检测 Facebook 帖子是否请求参与（例如点赞）。在针对有意和无意的对抗文本扰动方面，CW2V 嵌入的强健性优于基于字符 ngram 的嵌入，其分类结果在扰动下的 AUC 从 0.70 降至 0.67，而字符 ngram 嵌入的分类结果从 0.76 降至 0.64。

Feb, 2022

通过扰动修复对抗性文本

提出了一种通过多种敌对扰动方法修复文本，使神经网络能够正确分类的方法，经实验证明，该方法可对约 80％的文本进行修复，并且取决于使用的扰动方法，平均修复一条文本的时间仅需一秒。

Dec, 2021

神经机器翻译对输入扰动的鲁棒性评估

本文提出了衡量 NMT 模型抗干扰性能的一些额外指标，并针对一类使用子单词规范化方法的模型进行了广泛评估，结果表明我们提出的指标揭示了使用子单词规范化方法时抗干扰性能提高的明显趋势。

May, 2020