BriefGPT.xyz
May, 2024
多样训练提示(MSR)
Many-Shot Regurgitation (MSR) Prompting
HTML
PDF
Shashank Sonkar, Richard G. Baraniuk
TL;DR
我们引入了多次重复提示(MSR)攻击,这是一种新的黑盒成员推理攻击框架,用于检查大型语言模型(LLMs)中逐字复制的内容。我们将MSR提示应用于不同的文本来源,包括维基百科文章和开放教育资源(OER)教科书,在这些来源中,LLMs更容易复制逐字内容。
Abstract
We introduce
many-shot regurgitation
(MSR) prompting, a new black-box
membership inference attack
framework for examining verbatim content reproduction in large language models (LLMs). MSR prompting involves divi
→