基于 BERT 的文本分类对抗样本

EMNLPApr, 2020

BAE: BERT-based Adversarial Examples for Text Classification

Siddhant Garg, Goutham Ramakrishnan

TL;DR本研究提出了一种基于 BERT 掩码语言模型的背后攻击方法（BAE），用于生成自然、语义和语法准确的对抗性示例，比目前基于规则的同义词替换策略生成的对抗性示例更具攻击性。

Abstract

Modern text classification models are susceptible to adversarial examples, perturbed versions of the original text indiscernible by humans which get misclassified by the model. Recent works in →

text classification adversarial examples nlp synonym replacement strategies bert

发现论文，激发创造

BBAEG：用基于 BERT 的方法生成医学文本分类对抗样本

本文提出了一种基于生物医学领域同义替换和 BERTMLM 预测的黑盒攻击算法 BBAEG，旨在提高生物医学文本分类的抗干扰性和预测准确性。通过对两个数据集的自动和人工评估，我们证明 BBAEG 相对于以往的工作具有更强的攻击能力和更好的语言流畅性和语义连贯性。

Apr, 2021

基于阿拉伯语同义词 BERT 的文本分类对抗样本

通过引入第一个阿拉伯语的词级研究，我们使用基于掩蔽语言建模任务的同义词替换攻击，评估了最先进的文本分类模型对于阿拉伯语中的对抗攻击的鲁棒性，并研究了这些对抗样本的语法和语义相似性、传递性攻击的有效性以及关于 BERT 模型的防御机制的效果。我们发现，相较于其他我们训练的深度神经网络模型（如 WordCNN 和 WordLSTM），经过微调的 BERT 模型对我们的同义词替换攻击更容易受到影响。最后，我们发现经过对抗训练作为初始防御机制后，经过微调的 BERT 模型成功地恢复了至少 2% 的准确率。

Feb, 2024

BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对 BERT 的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现 96% 至 99% 的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT 比攻击研究所说的要更加健壮。

Sep, 2021

使用深度强化模型为文本分类器生成黑盒对抗样本

提出了一种基于强化学习的方法，在黑盒设置中生成对抗性示例，能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型，并且生成的对抗示例保留了原始文本的语义。

Sep, 2019

生成自然语言攻击的上下文感知方法

本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Dec, 2020

TextDecepter：针对文本分类器的硬标签黑盒攻击

本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法，其中没有模型信息被公开，攻击者只能查询模型以获得分类器的最终决策，该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。

Aug, 2020

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

SSCAE -- 语义、句法和上下文感知的自然语言对抗样本生成器

提出了一种名为 SSCAE 的自然语言生成器模型，它是一种实用且高效的对抗性攻击模型，能够生成具有语义、句法和上下文感知的自然语言对抗性示例，通过比较实验和参数优化敏感性分析验证了该模型的有效性和优越性。

Mar, 2024

通过 Beam Search 和混合语义空间生成高质量的文本对抗样本（High-quality Textual Adversarial Examples）

本研究提出了 BeamAttack，这是一种文本攻击算法，利用混合语义空间和改进的 Beam 搜索来制作高质量的对抗攻击示例，可在对模型进行攻击时提高攻击成功率并节省大量查询和时间。

Mar, 2023

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021