ICLRJul, 2021

迈向自然语言词替换的鲁棒性

TL;DR本文提出了一种新颖的 extit {Adversarial Sparse Convex Combination} (ASCC) 方法,将单词替换攻击空间建模为一个凸包,并利用正则化项来实现对实际替换的扰动,从而更好地对齐离散文本空间。基于 ASCC 方法,进一步提出 ASCC-defense,它利用 ASCC 生成最坏情况扰动,并结合对抗性训练以实现鲁棒性,实验结果表明,在多个模型架构和多种攻击下,ASCC-defense 在情感分析和自然语言推理这两个主要 NLP 任务中表现优于目前的最新技术,同时本文还展示了一种新的防御方式,该防御方式将我们的鲁棒性训练的单词向量插入到一个正常训练的模型中,从而提高其鲁棒性。