BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

Sep, 2021

BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

BERT is Robust! A Case Against Synonym-Based Adversarial Examples in Text Classification

Jens Hauser, Zhao Meng, Damián Pascual, Roger Wattenhofer

TL;DR本文调查了针对 BERT 的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现 96% 至 99% 的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT 比攻击研究所说的要更加健壮。

Abstract

deep neural networks have taken natural language processing by storm. While this led to incredible improvements across many tasks, it also initiated a new research field, questioning the →

deep neural networks natural language processing word substitution-based attacks bert robustness

发现论文，激发创造

基于阿拉伯语同义词 BERT 的文本分类对抗样本

通过引入第一个阿拉伯语的词级研究，我们使用基于掩蔽语言建模任务的同义词替换攻击，评估了最先进的文本分类模型对于阿拉伯语中的对抗攻击的鲁棒性，并研究了这些对抗样本的语法和语义相似性、传递性攻击的有效性以及关于 BERT 模型的防御机制的效果。我们发现，相较于其他我们训练的深度神经网络模型（如 WordCNN 和 WordLSTM），经过微调的 BERT 模型对我们的同义词替换攻击更容易受到影响。最后，我们发现经过对抗训练作为初始防御机制后，经过微调的 BERT 模型成功地恢复了至少 2% 的准确率。

Feb, 2024

Adv-BERT：在 BERT 上生成自然语言错拼的对抗样本

这篇论文探讨了 NLP 中最先进的模型 BERT 在处理存在于真实文本中的打字错误等噪声数据时的鲁棒性，并在情感分析和问题回答基准测试中进行了实验。研究表明：各种单词的打字错误对于 BERT 的影响不同；打字错误是损坏 BERT 性能最严重的因素之一；人类和机器对于识别对抗攻击有不同的关注点。

Feb, 2020

寻找有效的防御者：针对对抗性词语替换的防御基准测试

本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究，比较并提出了各种防御方法，最终提出了一种有效的方法提高神经文本分类器的鲁棒性，并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。

Aug, 2021

BERT-Defense: 基于 BERT 的概率模型用于抵御认知启发式正交攻击

本文研究在深度学习系统中敌对攻击的问题，使用字符级攻击并检验了几种防御方法和模型，表明一种无监督的迭代方法与 BERT 的掩码语言模型相结合可以达到与人类众包工人相当的效果。

Jun, 2021

BERT 在自然语言攻击上真的很强吗？文本分类和蕴含的强基准线

本文提出一种简单却强大的文本对抗生成基准，名为 TextFooler. 在两个自然语言任务中将其应用，成功攻击了三个目标模型，包括强大的预训练 BERT 和广泛使用的卷积和循环神经网络。该框架具备以下三个优点：有效性，实用性和高效性。

Jul, 2019

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

基于 BERT 的文本分类对抗样本

本研究提出了一种基于 BERT 掩码语言模型的背后攻击方法（BAE），用于生成自然、语义和语法准确的对抗性示例，比目前基于规则的同义词替换策略生成的对抗性示例更具攻击性。

Apr, 2020

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023

通过随机 [MASK] 实现对文本对抗攻击的认证鲁棒性

本文提出了一种随机遮挡的可证明鲁棒防御方法，对于 AGNEWS 数据集上五个词，SST2 数据集上两个词的任意扰动分类可以获得超过 50% 的证明鲁棒性，并在多个数据集上明显优于最近提出的防御方法。

May, 2021