EMNLPAug, 2019

通用对抗触发器针对自然语言处理的攻击与分析

TL;DR本篇论文旨在寻找普适的对抗触发器 (universal adversarial triggers),使用梯度导向的搜索过程寻找跨任务短小的触发序列,并展示了触发序列的强大攻击性能。触发序列即使在输入无关的情况下,对模型的全局行为也提供了一种分析方法。