ACLMay, 2021

不降低性能防御预训练语言模型受到的对抗词替换攻击

TL;DR本文提出了一种紧凑且性能不受影响的框架 ADFAR,采用辅助异常检测分类器和多任务学习过程较好地识别了对抗性输入的样本,并应用了频率感知的随机化过程防御对抗词置换攻击, 在各种任务上显着优于其他防御方法,且没有损害 PrLMs 的整体性能。