ACLMay, 2022

保留标签的短语级文本对抗攻击

TL;DR本论文提出了一个名为 PLAT 的短语级文本对抗攻击方法,通过短语级扰动来生成对抗性样本,并结合上下文化生成方式来保持文本流畅性和句法通顺性。同时,作者还开发了一个基于类别似然的标签保持过滤器,来排除潜在导致文本分类错误的扰动。实验证明,PLAT 不仅有着比强基线更优越的攻击效果,同时还具有更好的标签一致性。