Oct, 2020

从英雄到零:一项低级对抗攻击基准测试

TL;DR本文提出了首个大规模的人类可理解的自然语言处理模型的低阶对抗模型目录和基准(Z'eroe),共包括九种不同的攻击模式,证明当前主流的 RoBERTa 模型无法抵御这些攻击。该数据集可用于测试未来更像人类的 NLP 模型的鲁棒性。