迈向自然语言词替换的鲁棒性

ICLRJul, 2021

Towards Robustness Against Natural Language Word Substitutions

Xinshuai Dong, Anh Tuan Luu, Rongrong Ji, Hong Liu

TL;DR本文提出了一种新颖的 extit {Adversarial Sparse Convex Combination} (ASCC) 方法，将单词替换攻击空间建模为一个凸包，并利用正则化项来实现对实际替换的扰动，从而更好地对齐离散文本空间。基于 ASCC 方法，进一步提出 ASCC-defense，它利用 ASCC 生成最坏情况扰动，并结合对抗性训练以实现鲁棒性，实验结果表明，在多个模型架构和多种攻击下，ASCC-defense 在情感分析和自然语言推理这两个主要 NLP 任务中表现优于目前的最新技术，同时本文还展示了一种新的防御方式，该防御方式将我们的鲁棒性训练的单词向量插入到一个正常训练的模型中，从而提高其鲁棒性。

Abstract

robustness against word substitutions has a well-defined and widely acceptable form, i.e., using semantically similar words as substitutions, and thus it is considered as a fundamental stepping-stone towards broa

robustness word substitutions natural language processing ascc method adversarial training

发现论文，激发创造

SAFER: 一种无需结构的方法，实现对抗性词汇替换的认证鲁棒性

针对自然语言处理领域中的同义词替换攻击问题，提出了一种基于随机平滑技术的认证鲁棒性方法，能证明某些输入不能通过任何同义词替换被修改，可以应用于各种预训练模型，在 IMDB 和亚马逊文本分类任务上表现优异，创造了 BERT 系统鲁棒性认证的最佳效果。

May, 2020

通过随机 [MASK] 实现对文本对抗攻击的认证鲁棒性

本文提出了一种随机遮挡的可证明鲁棒防御方法，对于 AGNEWS 数据集上五个词，SST2 数据集上两个词的任意扰动分类可以获得超过 50% 的证明鲁棒性，并在多个数据集上明显优于最近提出的防御方法。

May, 2021

Text-CRS: 一个通用的文本对抗攻击认证鲁棒性框架

本文提出了一种基于随机平滑的泛化认证鲁棒性框架 Text-CRS，用于自然语言处理中的文本，并对单词级对抗操作进行了证明，实现了显著的准确性提升。

Jul, 2023

对抗性词语替换的可验证鲁棒性

本文利用 Interval Bound Propagation（IBP）训练了第一个能够抵御包括词语替换在内的 label-preserving 转换攻击的 NLP 模型，该模型在情感分析与自然语言推理任务上取得了 75% 的对抗准确率，远高于传统训练模型和数据增广训练模型的 8% 和 35%。

Sep, 2019

通过随机替换编码技术防御词级对抗攻击

本文研究深度神经网络在自然语言处理任务中遭受对抗攻击的问题，并提出一种名为随机替换编码（Random Substitution Encoding，RSE）的新型防御框架，该框架可以有效保护文本分类任务免受单词级别对抗攻击。

May, 2020

寻找有效的防御者：针对对抗性词语替换的防御基准测试

本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究，比较并提出了各种防御方法，最终提出了一种有效的方法提高神经文本分类器的鲁棒性，并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。

Aug, 2021

量化对抗性单词替换的鲁棒性

论文提出了一种正式框架来评估基于深度学习的 NLP 模型的鲁棒性，包括比较上下界以计算鲁棒半径、量化对抗性示例的鲁棒性度量，并探索模型易受扰动的原因。

Jan, 2022

BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对 BERT 的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现 96% 至 99% 的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT 比攻击研究所说的要更加健壮。

Sep, 2021

单字更改足矣：为文本分类器设计攻击与防御

本文研究文本分类中单词扰动漏洞的问题，并提出了评估分类器鲁棒性、利用单词扰动漏洞的 SP-Attack 攻击方法以及通过数据增强提高分类器鲁棒性的 SP-Defense 方法。实验结果表明 SP-Defense 能将攻击成功率下降 30.4% 和 21.2%，而提高鲁棒性达到 14.6% 和 13.9%。同时，SP-Defense 还能降低多词扰动攻击成功率。

Jan, 2024

使用双重增益提高摘要系统的鲁棒性

本文旨在研究文本摘要模型对词级同义替换和噪声的鲁棒性，发现模型鲁棒性不足。为提高模型的鲁棒性，提出用语言模型生成对抗样本并在输入空间内使用这些样本多样化原始数据，同时在隐藏空间内进行流形混合操作以引入更多的编码器编码输出。测试结果表明，该方法得到了有效的改进。

Jun, 2023