Oct, 2023

PoisonPrompt: 基于提示的大型语言模型的后门攻击

TL;DR本文研究了基于提示的大语言模型存在的后门安全威胁,并提出了一种名为 POISONPROMPT 的新型后门攻击方法,实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性,该研究强调了进一步研究这一领域的重要性。