Dec, 2018

离散敌对攻击与子模优化及其在文本分类中的应用

TL;DR本文提出对于离散输入的攻击作为优化任务的形式化表达,并证明了针对一些流行的神经网络文本分类器,该函数在简化假设下是次模的。同时,本文提出了使用攻击分类器的梯度来引导贪心搜索的方法。在三种不同的文本分类任务和多个基线上进行的实证研究表明,我们提出的优化方案在攻击能力和效率方面均显著提高。我们还使用联合句子和词汇改写技术来维护文本的原始语义和语法。在主观度量中,我们还使用人类主体评估来验证了生成的对抗文本的质量和语义连贯性。