ACLMay, 2020
使用自然触发器的通用文本对抗攻击
Universal Adversarial Attacks with Natural Triggers for Text Classification
Liwei Song, Xinwei Yu, Hsuan-Tung Peng, Karthik Narasimhan
TL;DR利用对抗正则化自编码器 (ARAE) 和梯度搜索等技术,对现代文本分类器进行了对抗攻击,生成的词组比先前模型更接近自然的英语短语,并能在被加入到输入文本后成功混淆分类器,并且难以被自动检测或人为辨识。该研究的目的是展示对抗攻击可以比先前认为的更难被检测到,并推动防御技术的发展。