ACLSep, 2020

文本对抗攻击的上下文扰动

TL;DR本文提出了一种基于上下文的 CLARE 模型,通过掩码插值过程生成流畅和语法正确的对抗样例,旨在发现自然语言处理模型的脆弱性,并通过三个上下文化扰动方法 —— 替换、插入、合并,产生不同长度的文本以提高攻击效率,并通过实验和人类评估证明了相对于基线模型,CLARE 模型在攻击成功率、文本相似性、流畅性和语法正确性方面表现更好。