May, 2024

通过反向获取 LLM 输出来提取提示

TL;DR给定一个语言模型输出,我们考虑语言模型反演的问题:我们寻找生成这些输出的提示信息。我们开发了一种新的黑盒方法 output2prompt,它能够学习在不访问模型的 logits 或使用对抗性或越狱查询的情况下提取提示信息。与以前的工作不同,output2prompt 只需要普通用户查询的输出。为了提高内存效率,output2prompt 采用一种新的稀疏编码技术。我们衡量了 output2prompt 在各种用户和系统提示上的有效性,并展示了在不同语言模型之间的零 - shot 可迁移性。