基于阿拉伯语同义词 BERT 的文本分类对抗样本

Feb, 2024

基于阿拉伯语同义词 BERT 的文本分类对抗样本

Arabic Synonym BERT-based Adversarial Examples for Text Classification

Norah Alshahrani, Saied Alshahrani, Esma Wali, Jeanna Matthews

TL;DR通过引入第一个阿拉伯语的词级研究，我们使用基于掩蔽语言建模任务的同义词替换攻击，评估了最先进的文本分类模型对于阿拉伯语中的对抗攻击的鲁棒性，并研究了这些对抗样本的语法和语义相似性、传递性攻击的有效性以及关于 BERT 模型的防御机制的效果。我们发现，相较于其他我们训练的深度神经网络模型（如 WordCNN 和 WordLSTM），经过微调的 BERT 模型对我们的同义词替换攻击更容易受到影响。最后，我们发现经过对抗训练作为初始防御机制后，经过微调的 BERT 模型成功地恢复了至少 2% 的准确率。

Abstract

text classification systems have been proven vulnerable to adversarial text examples, modified versions of the original text examples that are often unnoticed by human eyes, yet can force text classification mode

text classification adversarial attacks arabic bert models defense mechanisms

发现论文，激发创造

BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对 BERT 的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现 96% 至 99% 的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT 比攻击研究所说的要更加健壮。

Sep, 2021

基于 BERT 的文本分类对抗样本

本研究提出了一种基于 BERT 掩码语言模型的背后攻击方法（BAE），用于生成自然、语义和语法准确的对抗性示例，比目前基于规则的同义词替换策略生成的对抗性示例更具攻击性。

Apr, 2020

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

多语种文本分类的生成对抗攻击

通过对多语言释义模型进行敌对目标的微调，我们提出了一种对抗性攻击算法，用于伪造多语言分类器的有效的对抗性样本，实验证明该方法在查询效率方面优于现有基准模型。

Jan, 2024

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

BERT-ATTACK: 使用 BERT 对抗 BERT 的对抗攻击

本文提出了使用 BERT 预训练模型的高质量有效的方法 BERT-Attack，用于生成对抗样本并在对下游任务的深度神经模型进行攻击。在成功率和扰动百分比方面，我们的方法优于最先进的攻击策略，而生成的对抗样本则流畅且在语义上保留，且计算成本低，可用于大规模产生。

Apr, 2020

针对生物医学自然语言处理任务的对抗性样本

本文介绍了在医疗领域中使用模型的预训练词嵌入的成功，讨论了 BERT 语言模型在核心领域中的效果，并提出了三种不同的对抗策略并评估模型性能，结果发现模型效果被显著降低，通过使用对抗性样本可以显著提高模型性能和鲁棒性的实验，并希望该实验能够激励更多对具备更强鲁棒性的模型的投入和评估。

Apr, 2020

通过随机 [MASK] 实现对文本对抗攻击的认证鲁棒性

本文提出了一种随机遮挡的可证明鲁棒防御方法，对于 AGNEWS 数据集上五个词，SST2 数据集上两个词的任意扰动分类可以获得超过 50% 的证明鲁棒性，并在多个数据集上明显优于最近提出的防御方法。

May, 2021

BERT-Defense: 基于 BERT 的概率模型用于抵御认知启发式正交攻击

本文研究在深度学习系统中敌对攻击的问题，使用字符级攻击并检验了几种防御方法和模型，表明一种无监督的迭代方法与 BERT 的掩码语言模型相结合可以达到与人类众包工人相当的效果。

Jun, 2021

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018