Sep, 2019

文本分类中鉴别扰动以阻挠对抗性攻击的学习

TL;DR本文提出了一种名为学习鉴别扰动 (DISP) 的新框架,用于识别和调整恶意扰动,以此来阻止文本分类模型的对抗攻击。DISP 可以有效地阻止对任何 NLP 模型的对抗攻击,而无需修改模型结构或训练过程。在两个基准数据集上进行的广泛实验表明,DISP 在阻止文本分类的对抗攻击方面显著优于基准方法。此外,深入分析表明了 DISP 在不同情况下的鲁棒性。