EMNLPOct, 2023

大型语言模型更具优势:探索生成式干净标签背门攻击对文本分类器的影响

TL;DR我们研究了后门攻击,使用语言模型自动插入多样化的基于样式的触发器到文本中,并提出了一种毒素选择技术来改善攻击的效果,同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻击成功率,且几乎不需要训练而且非常有效。