May, 2023

UOR:预训练语言模型的通用后门攻击

TL;DR本论文提出了一种新的后门攻击方法 UOR,通过将手动选择转化为自动优化,定义了毒化监督对比学习,使用梯度搜索选择适当的触发词并针对不同 PLMs 和词汇表进行自适应,取得了比手动方法更好的攻击表现,并证明了该方法的普适性。