EMNLPOct, 2022

通过可挂载的子词替换进行字符级白盒对抗攻击来攻击变形金刚

TL;DR我们提出了第一个针对 transformer 模型的字符级白盒对抗攻击方法。我们的方法主要包含三个步骤:选择最脆弱的单词,将其拆分成次标记,以及使用适当的替换次标记。我们的实验结果表明,与先前的攻击方法相比,我们的方法在成功率和编辑距离方面都有更好的表现。