May, 2024

多样训练提示(MSR)

TL;DR我们引入了多次重复提示 (MSR) 攻击,这是一种新的黑盒成员推理攻击框架,用于检查大型语言模型 (LLMs) 中逐字复制的内容。我们将 MSR 提示应用于不同的文本来源,包括维基百科文章和开放教育资源 (OER) 教科书,在这些来源中,LLMs 更容易复制逐字内容。