May, 2024

多样训练提示(MSR)

TL;DR我们引入了多次重复提示(MSR)攻击,这是一种新的黑盒成员推理攻击框架,用于检查大型语言模型(LLMs)中逐字复制的内容。我们将MSR提示应用于不同的文本来源,包括维基百科文章和开放教育资源(OER)教科书,在这些来源中,LLMs更容易复制逐字内容。