Apr, 2020

重新评估自然语言中的对抗样本

TL;DR通过分析最先进程序的同义词替换攻击,本文提出了成功自然语言攻击的定义 —— 伪造的文本必须欺骗模型、遵守一些语言约束,并发现其扰动往往不能保持语义,而人类调查表明交换词汇的嵌入和原始 / 扰动句子的句子编码之间的最小余弦相似性应显著提高以保持有效的语义性和语法性,一旦应用了相应的限制成功率会下降 70%。