通过计算最大安全半径评估文本分类的稳健性

Oct, 2020

通过计算最大安全半径评估文本分类的稳健性

Assessing Robustness of Text Classification through Maximal Safe Radius Computation

Emanuele La Malfa, Min Wu, Luca Laurenti, Benjie Wang, Anthony Hartshorn...

TL;DR本文研究神经网络NLP模型在遭受单词替换这一领域的攻击时的鲁棒性，并提出了一个最大安全半径的概念作为鲁棒性的度量标准，同时使用蒙特卡罗树搜索和线性边界技术计算最大安全半径的上下限。该方法在四个数据集上进行了验证，并与LIME进行了比较。

Abstract

neural network nlp models are vulnerable to small modifications of the input that maintain the original meaning but result in a different prediction. In this paper, we focus on →

发现论文，激发创造

基于字符的词嵌入在标注和机器翻译中对抗单词混淆和随机噪声的鲁棒性如何？

本文研究了NLP在含有误差的单词形式下的稳健性，考虑了不同类型和组合的误差分布、不同模型和基本单元对NLP任务（如形态标注和机器翻译）的影响，以及神经网络在此类应用中的鲁棒性。

Apr, 2017

对抗性词语替换的可验证鲁棒性

本文利用Interval Bound Propagation（IBP）训练了第一个能够抵御包括词语替换在内的label-preserving转换攻击的NLP模型，该模型在情感分析与自然语言推理任务上取得了75%的对抗准确率，远高于传统训练模型和数据增广训练模型的8%和35%。

Sep, 2019

通过区间传播实现对符号替换的可验证鲁棒性

本文提出了一种解决NLP系统鲁棒性问题的方法，通过形式化验证系统对先前已定义的对抗攻击的稳健性，使用基于区间边界传播法的模型验证方法模拟离散文本扰动，改进对数似然训练目标训练模型，该方法能够有效地验证模型，并保证模型在最坏情况下的鲁棒性。

Sep, 2019

SAFER: 一种无需结构的方法，实现对抗性词汇替换的认证鲁棒性

针对自然语言处理领域中的同义词替换攻击问题，提出了一种基于随机平滑技术的认证鲁棒性方法，能证明某些输入不能通过任何同义词替换被修改，可以应用于各种预训练模型，在 IMDB 和亚马逊文本分类任务上表现优异，创造了 BERT 系统鲁棒性认证的最佳效果。

May, 2020

TextFlint：用于自然语言处理的统一多语言健壮性评估工具包

本文提出了一个跨语种的 NLP 任务（TextFlint）多方面评估平台，它包含通用文本转换、任务特定转换、对抗攻击、亚种群以及它们的组合，可为从多个方面对模型进行全面的鲁棒性分析。

Mar, 2021

迈向自然语言词替换的鲁棒性

本文提出了一种新颖的 extit{Adversarial Sparse Convex Combination} (ASCC) 方法，将单词替换攻击空间建模为一个凸包，并利用正则化项来实现对实际替换的扰动，从而更好地对齐离散文本空间。基于ASCC方法，进一步提出ASCC-defense，它利用ASCC生成最坏情况扰动，并结合对抗性训练以实现鲁棒性，实验结果表明，在多个模型架构和多种攻击下，ASCC-defense在情感分析和自然语言推理这两个主要NLP任务中表现优于目前的最新技术，同时本文还展示了一种新的防御方式，该防御方式将我们的鲁棒性训练的单词向量插入到一个正常训练的模型中，从而提高其鲁棒性。

Jul, 2021

鲁棒自然语言处理：最近进展、挑战与未来方向

本篇论文总结了近年来自然语言处理(NLP)的抗干扰性研究，并就技术、度量标准、嵌入、基准等维度深入探讨了该领域中存在的问题和待解决的方向。

Jan, 2022

量化对抗性单词替换的鲁棒性

论文提出了一种正式框架来评估基于深度学习的NLP模型的鲁棒性，包括比较上下界以计算鲁棒半径、量化对抗性示例的鲁棒性度量，并探索模型易受扰动的原因。

Jan, 2022

Text-CRS: 一个通用的文本对抗攻击认证鲁棒性框架

本文提出了一种基于随机平滑的泛化认证鲁棒性框架Text-CRS，用于自然语言处理中的文本，并对单词级对抗操作进行了证明，实现了显著的准确性提升。

Jul, 2023

鲁棒文本分类：分析基于原型的网络

基于原型网络 (Prototype-Based Networks) 的鲁棒性在自然语言处理 (NLP) 文本分类任务中能够面对现实扰动，并且主要由保持原型可解释性的目标函数支持。

Nov, 2023