本文研究了NLP在含有误差的单词形式下的稳健性,考虑了不同类型和组合的误差分布、不同模型和基本单元对NLP任务(如形态标注和机器翻译)的影响,以及神经网络在此类应用中的鲁棒性。
Apr, 2017
本文利用Interval Bound Propagation(IBP)训练了第一个能够抵御包括词语替换在内的label-preserving转换攻击的NLP模型,该模型在情感分析与自然语言推理任务上取得了75%的对抗准确率,远高于传统训练模型和数据增广训练模型的8%和35%。
Sep, 2019
本文提出了一种解决NLP系统鲁棒性问题的方法,通过形式化验证系统对先前已定义的对抗攻击的稳健性,使用 基于区间边界传播法的模型验证方法模拟离散文本扰动,改进对数似然训练目标训练模型,该方法能够有效地验证模型,并保证模型在最坏情况下的鲁棒性。
针对自然语言处理领域中的同义词替换攻击问题,提出了一种基于随机平滑技术的认证鲁棒性方法,能证明某些输入不能通过任何同义词替换被修改,可以应用于各种预训练模型,在 IMDB 和亚马逊文本分类任务上表现优异,创造了 BERT 系统鲁棒性认证的最佳效果。
May, 2020
本文提出了一个跨语种的 NLP 任务(TextFlint)多方面评估平台,它包含通用文本转换、任务特定转换、对抗攻击、亚种群以及它们的组合,可为从多个方面对模型进行全面的鲁棒性分析。
Mar, 2021
本文提出了一种新颖的 extit{Adversarial Sparse Convex Combination} (ASCC) 方法,将单词替换攻击空间建模为一个凸包,并利用正则化项来实现对实际替换的扰动,从而更好地对齐离散文本空间。基于ASCC方法,进一步提出ASCC-defense,它利用ASCC生成最坏情况扰动,并结合对抗性训练以实现鲁棒性,实验结果表明,在多个模型架构和多种攻击下,ASCC-defense在情感分析和自然语言推理这两个主要NLP任务中表现优于目前的最新技术,同时本文还展示了一种新的防御方式,该防御方式将我们的鲁棒性训练的单词向量插入到一个正常训练的模型中,从而提高其鲁棒性。
Jul, 2021
本篇论文总结了近年来自然语言处理(NLP)的抗干扰性研究,并就技术、度量标准、嵌入、基准等维度深入探讨了该领域中存在的问题和待解决的方向。
Jan, 2022
论文提出了一种正式框架来评估基于深度学习的NLP模型的鲁棒性,包括比较上下界以计算鲁棒半径、量化对抗性示例的鲁棒性度量,并探索模型易受扰动的原因。
本文提出了一种基于随机平滑的泛化认证鲁棒性框架Text-CRS,用于自然语言处理中的文本,并对单词级对抗操作进行了证明,实现了显著的准确性提升。
Jul, 2023
基于原型网络 (Prototype-Based Networks) 的鲁棒性在自然语言处理 (NLP) 文本分类任务中能够面对现实扰动,并且主要由保持原型可解释性的目标函数支持。
Nov, 2023