May, 2024

文本分类器的对抗攻击的约束执行奖励

TL;DR通过强化学习算法训练的编码器 - 解码器重述模型生成多样化的对抗性示例,在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型,并且总体上比其他竞争性攻击更有效,同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。