May, 2023

预训练语言模型的对抗攻击建模为序列决策

TL;DR本文通过将 PLMs 的对抗攻击任务形式化为一个序列决策问题,并采用强化学习方法找到适当的攻击路径,提出了 SDM-Attack,其在攻击成功率,修改率和语义相似性上都表现出色,并且分析验证了其通用性和可转移性。