Jul, 2023

为指导调整的大型语言模型添加虚拟提示注入

TL;DR我们提出了虚拟提示注入(VPI)技术,用于调整指令的大型语言模型(LLM)。VPI 允许攻击者指定虚拟提示,在特定触发场景下引导模型行为,而无需显式地注入模型输入。我们通过污染模型的指令调整数据,演示了 VPI 的风险,并建议采用数据过滤作为一种有效的防御手段。