Feb, 2024

快速采用,隐含风险:大型语言模型定制的双重影响

TL;DR我们的研究论文首次提出了针对与不受信任的定制大型语言模型(例如 GPTs)集成的应用程序的指令后门攻击,这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中,并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型(如 GPTs)的脆弱性和潜在风险。