Mar, 2024

羊驼对抗维昆纳:利用 LLMs 揭示 LLMs 的记忆

TL;DR我们介绍了一种黑盒提示优化方法,利用攻击者 LLM 代理来揭示受害者代理中比直接使用训练数据作为提示目标模型所揭示的更高水平的记忆,我们使用迭代的拒绝抽样优化过程来找到具有两个主要特征的基于指令的提示,即 (1) 最小程度地与训练数据重叠,以避免直接向模型呈现解决方案;(2) 最大化受害模型输出与训练数据的重叠,旨在诱使受害模型输出训练数据,我们观察到,与基于前缀 - 后缀测量的基准相比,我们的基于指令的提示生成的输出与训练数据重叠度更高达 23.7%,我们的发现表明,(1) 基于指令的模型可以暴露出与其基础模型一样多的预训练数据,甚至更多;(2) 原始训练数据之外的上下文可以导致信息泄漏;(3) 使用其他 LLM 提出的指令可能会开辟一种新的自动攻击的途径,需要进一步研究和探索。代码可以在此 URL 找到。