通过鲁棒密度估计进行文本分类中词语对抗样本的检测：基准和基础线

ACLMar, 2022

通过鲁棒密度估计进行文本分类中词语对抗样本的检测：基准和基础线

Detection of Word Adversarial Examples in Text Classification: Benchmark and Baseline via Robust Density Estimation

KiYoon Yoo, Jangho Kim, Jiho Jang, Nojun Kwak

TL;DR本文旨在探索检测针对 NLP 模型的对抗攻击的方法，提出基于密度估计的 Competitive Baseline，并提供包括 4 个数据集上 4 种流行攻击方法和 4 种模型在内的数据集，以便进一步研究。

Abstract

Word-level adversarial attacks have shown success in nlp models, drastically decreasing the performance of transformer-based models in rec

adversarial attacks nlp models transformer-based models adversarial defense automated tasks

发现论文，激发创造

基于词重要性熵的对抗文本检测

本文研究针对自然语言处理（NLP）模型的对抗攻击算法，发现攻击算法主要破坏文本中的单词重要性分布，基于此提出一种新的防御框架 TextDefense，利用目标模型的能力来检测对抗样本，不需要先验知识，并发现影响 TextDefense 性能的主要因素是目标模型的可推广性。

Feb, 2023

寻找有效的防御者：针对对抗性词语替换的防御基准测试

本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究，比较并提出了各种防御方法，最终提出了一种有效的方法提高神经文本分类器的鲁棒性，并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。

Aug, 2021

BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对 BERT 的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现 96% 至 99% 的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT 比攻击研究所说的要更加健壮。

Sep, 2021

基于数据表示的分布特征检测文本对抗攻击样本

本文提出两种反应式方法来检测 NLP 中的文字对抗样本，使用分布特征学习表示的 LID 和 MDRE 方法取得了 IMDB 和 MultiNLI 数据集上字符级、词级、短语级攻击领域的最新成果。

Apr, 2022

文本检索中对抗性排序攻击的防御：通过检测进行基准和基线

建立了一个基准数据集，针对神经排序模型的对抗文档进行了两类检测任务的研究，并对多个检测基线的性能进行了综合调查，实验结果表明，使用监督分类器可以有效缓解已知攻击，但对于未知攻击效果很差。此外，这样的分类器应避免使用查询文本以防止学习相关性分类，以免误分类相关文件。

Jul, 2023

揭示针对说话人识别的对抗样本 -- 攻击检测和受害模型分类的技术

提出了一种检测对抗性示例的方法，基于新的架构进行攻击类型分类并介绍一种对受害模型进行识别的方法，获得了较高的检测准确率和分类准确率。

Feb, 2024

批量检测对抗性示例 -- 一种几何方法

本文研究通过引入几何度量法来检测深度学习模型中的对抗样本，并以 MNIST 数据集和两个医学数据集为例，对密度和覆盖度两种几何度量法进行了实证研究，结果表明这两种度量法能够检测到对抗样本并能在机器学习系统中使用来监控可能的对抗性例子或相关病理因素，为进一步研究机器学习系统的安全提供了基础。

Jun, 2022

识别文本分类器的对抗攻击

本文为对文本分类器对抗攻击的取证研究提供了第一步，通过分析对抗文本来确定其创建方法，提供了一个广泛的攻击检测和标记数据集，使用该数据集开发和基准测试攻击识别的多个分类器，并展示了三类特征对这些任务的有效性。

Jan, 2022

文本中健壮的深度神经网络：一项调查

本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查，并基于干扰单位对现有的对抗技术进行分类，从不同的自然语言处理任务的视角介绍了对抗技术，并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。

Feb, 2019

BERT 在自然语言攻击上真的很强吗？文本分类和蕴含的强基准线

本文提出一种简单却强大的文本对抗生成基准，名为 TextFooler. 在两个自然语言任务中将其应用，成功攻击了三个目标模型，包括强大的预训练 BERT 和广泛使用的卷积和循环神经网络。该框架具备以下三个优点：有效性，实用性和高效性。

Jul, 2019