Dec, 2022

使用 Transformer 评估文本归因的对抗鲁棒性

TL;DR通过提出 attribution robustness(AR)的概念,使用一系列文本相似性度量来捕捉两个文本的局部性和不可感知性,并提出了 TransformerExplanationAttack(TEA)的概念,利用最先进的语言模型,提取单词替换,从而展示了对于几种文本分类架构的实验,证明了 TEA 在提高对上下文敏感性的同时,更加流畅,更不易被察觉。