Feb, 2023

基于词汇的零训练后门攻击语言模型

TL;DR本文提出了一种无需额外训练的语言模型后门攻击方法 TFLexAttack,通过操作 language model 的嵌入字典,向 tokenizer 注入词汇触发器,实现攻击的隐秘性,实验结果表明该攻击方法的普遍性和有效性。