ACLMay, 2020

使用自然触发器的通用文本对抗攻击

TL;DR利用对抗正则化自编码器 (ARAE) 和梯度搜索等技术,对现代文本分类器进行了对抗攻击,生成的词组比先前模型更接近自然的英语短语,并能在被加入到输入文本后成功混淆分类器,并且难以被自动检测或人为辨识。该研究的目的是展示对抗攻击可以比先前认为的更难被检测到,并推动防御技术的发展。