May, 2023

基于提示的后门攻击:探究语言模型的漏洞

TL;DR本研究提出了一种名为 ProAttack 的新方法,用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击,从而对模型引入有针对性的漏洞,该方法使用提示本身作为触发器,并确保正确标记给定的样本,可以提高后门攻击的隐蔽性。