ACLMay, 2022

SemAttack: 基于不同语义空间的自然文本攻击

TL;DR提出了一种有效的 SemAttack 框架,在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本,可针对包括大规模 LM 和防御策略在内的对抗方法,适用于不同语言的对抗生成,而人评结果表明生成出的对抗文本自然,几乎不影响人类的表现。