通过区间传播实现对符号替换的可验证鲁棒性

Sep, 2019

通过区间传播实现对符号替换的可验证鲁棒性

Achieving Verified Robustness to Symbol Substitutions via Interval Bound Propagation

Po-Sen Huang, Robert Stanforth, Johannes Welbl, Chris Dyer, Dani Yogatama...

TL;DR本文提出了一种解决NLP系统鲁棒性问题的方法，通过形式化验证系统对先前已定义的对抗攻击的稳健性，使用基于区间边界传播法的模型验证方法模拟离散文本扰动，改进对数似然训练目标训练模型，该方法能够有效地验证模型，并保证模型在最坏情况下的鲁棒性。

Abstract

neural networks are part of many contemporary NLP systems, yet their empirical successes come at the price of vulnerability to adversarial attacks. Previous work has used adversarial training and data augmentatio

发现论文，激发创造

对抗性词语替换的可验证鲁棒性

本文利用Interval Bound Propagation（IBP）训练了第一个能够抵御包括词语替换在内的label-preserving转换攻击的NLP模型，该模型在情感分析与自然语言推理任务上取得了75%的对抗准确率，远高于传统训练模型和数据增广训练模型的8%和35%。

Sep, 2019

Robust Encodings: 一种应对对抗性错别字的框架

本文提出一种名为RobEn的框架，实现NLP系统对抗攻击的鲁棒性，相较于之前的方法具有更好的稳定性和保真度，在六项任务中，RobEn与BERT的结合在防御一系列错别字攻击中可达到71.3%的平均准确度，而之前的方法只能达到35.3%。

May, 2020

SAFER: 一种无需结构的方法，实现对抗性词汇替换的认证鲁棒性

针对自然语言处理领域中的同义词替换攻击问题，提出了一种基于随机平滑技术的认证鲁棒性方法，能证明某些输入不能通过任何同义词替换被修改，可以应用于各种预训练模型，在 IMDB 和亚马逊文本分类任务上表现优异，创造了 BERT 系统鲁棒性认证的最佳效果。

May, 2020

LSTMs在可编程转换下的认证鲁棒性

该论文提出了一种通过使用字符串转换语言来扩展鲁棒性证明的方法，成功地训练了比现有技术更鲁棒的模型，并且可以高精确度地证明模型的鲁棒性。

Feb, 2021

通过随机[MASK]实现对文本对抗攻击的认证鲁棒性

本文提出了一种随机遮挡的可证明鲁棒防御方法，对于 AGNEWS 数据集上五个词，SST2 数据集上两个词的任意扰动分类可以获得超过50%的证明鲁棒性，并在多个数据集上明显优于最近提出的防御方法。

May, 2021

迈向自然语言词替换的鲁棒性

本文提出了一种新颖的 extit{Adversarial Sparse Convex Combination} (ASCC) 方法，将单词替换攻击空间建模为一个凸包，并利用正则化项来实现对实际替换的扰动，从而更好地对齐离散文本空间。基于ASCC方法，进一步提出ASCC-defense，它利用ASCC生成最坏情况扰动，并结合对抗性训练以实现鲁棒性，实验结果表明，在多个模型架构和多种攻击下，ASCC-defense在情感分析和自然语言推理这两个主要NLP任务中表现优于目前的最新技术，同时本文还展示了一种新的防御方式，该防御方式将我们的鲁棒性训练的单词向量插入到一个正常训练的模型中，从而提高其鲁棒性。

Jul, 2021

BERT强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对BERT的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现96%至99%的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT比攻击研究所说的要更加健壮。

Sep, 2021

量化对抗性单词替换的鲁棒性

论文提出了一种正式框架来评估基于深度学习的NLP模型的鲁棒性，包括比较上下界以计算鲁棒半径、量化对抗性示例的鲁棒性度量，并探索模型易受扰动的原因。

Jan, 2022

Text-CRS: 一个通用的文本对抗攻击认证鲁棒性框架

本文提出了一种基于随机平滑的泛化认证鲁棒性框架Text-CRS，用于自然语言处理中的文本，并对单词级对抗操作进行了证明，实现了显著的准确性提升。

Jul, 2023

机器翻译模型面对敌对攻击表现强劲

深度学习模型中的对抗攻击通过对输入进行微小扰动，从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列（seq2seq）模型的影响，特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略，例如基于梯度的攻击，该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查，我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性，因为输出中的扰动程度与输入中的扰动成正比。然而，在次优方法中，我们的攻击方法优于其他方法，提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。

Sep, 2023