EMNLPOct, 2023

加强文本攻击检测器

TL;DR该研究提出了两个重要贡献:引入了 LAROUSSE 框架来检测文本对抗攻击,引入了 STAKEOUT 基准评估框架,其中包含了九种常用攻击方法、三个数据集和两个预训练模型。通过广泛的数值实验,我们证明 LAROUSSE 优于先前的方法,并且可以识别出有意义的检测率变化因素。