ACLMar, 2022

利用自然语言扰动进行逼真的对抗攻击和防御

TL;DR本文提出了新算法 ANTHRO,利用文本扰动实现对一个基于 BERT 的分类器进行对抗性攻击,并达到了攻击成功率高,语义保留性好,难以察觉等目标效果,可用于对抗训练。