Feb, 2023
基于词汇的零训练后门攻击语言模型
Training-free Lexical Backdoor Attacks on Language Models
Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan...
TL;DR本文提出了一种无需额外训练的语言模型后门攻击方法 TFLexAttack,通过操作 language model 的嵌入字典,向 tokenizer 注入词汇触发器,实现攻击的隐秘性,实验结果表明该攻击方法的普遍性和有效性。