ACLApr, 2022

那是可疑的反应!”:解读分类器得分变化以检测自然语言处理对抗攻击

TL;DR本研究介绍了一种针对自然语言处理中对抗文本样本的模型无关检测器,该检测器能在不同的 NLP 模型、数据集和单词级攻击中识别出对抗性输入,并显示出极强的泛化能力。