ACLApr, 2020

用频率引导的词替换技术检测文本对抗样本

TL;DR本文提出了基于词频的敌对样本检测方法(FGWS),能够通过对置换词和相应替换词之间的词频差异进行检测,实验结果表明,FGWS 能够在 SST-2 和 IMDb 情感数据集上准确检测到敌对样本,并相比最近提出的扰动辨别框架的表现提升了 13.0% F1。