AAAIDec, 2020

生成自然语言攻击的上下文感知方法

TL;DR本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务,并提出了一种攻击策略,通过考虑原始单词及其周围情境的信息来找到候选单词,并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比,我们能够生成高质量的对抗性示例,成功率和单词扰动百分比都有显著提高。