May, 2024

语义引导的通用目标劫持 LLM 的提示组织

TL;DR通过语义导向的提示处理策略,我们提出了一种称为 POUGH 的通用目标劫持方法,用于评估大型语言模型的可信度,并在四个流行的语言模型和十种目标响应类型上进行了实验证实其有效性。