May, 2023
预训练语言模型的对抗攻击建模为序列决策
Modeling Adversarial Attack on Pre-trained Language Models as Sequential Decision Making
Xuanjie Fang, Sijie Cheng, Yang Liu, Wei Wang
TL;DR本文通过将 PLMs 的对抗攻击任务形式化为一个序列决策问题,并采用强化学习方法找到适当的攻击路径,提出了 SDM-Attack,其在攻击成功率,修改率和语义相似性上都表现出色,并且分析验证了其通用性和可转移性。