AAAIAug, 2020

针对基于同义词替换的文本攻击的快速梯度投影方法中的对抗训练

TL;DR本文提出了一种快速文本对抗攻击方法,称为基于同义词替换的快速梯度投影方法(FGPM),并将其与对抗性训练相结合,提出了一种文本防御方法,称为增强型 Logit 配对的对抗性训练(ATFL),实验证明,ATFL 可以显著提高模型的稳健性并阻止对抗性示例的可转移性。