ACLMar, 2022

通过鲁棒密度估计进行文本分类中词语对抗样本的检测:基准和基础线

TL;DR本文旨在探索检测针对 NLP 模型的对抗攻击的方法,提出基于密度估计的 Competitive Baseline,并提供包括 4 个数据集上 4 种流行攻击方法和 4 种模型在内的数据集,以便进一步研究。