通过反向获取 LLM 输出来提取提示

May, 2024

通过反向获取 LLM 输出来提取提示

Extracting Prompts by Inverting LLM Outputs

Collin Zhang, John X. Morris, Vitaly Shmatikov

TL;DR给定一个语言模型输出，我们考虑语言模型反演的问题：我们寻找生成这些输出的提示信息。我们开发了一种新的黑盒方法 output2prompt，它能够学习在不访问模型的 logits 或使用对抗性或越狱查询的情况下提取提示信息。与以前的工作不同，output2prompt 只需要普通用户查询的输出。为了提高内存效率，output2prompt 采用一种新的稀疏编码技术。我们衡量了 output2prompt 在各种用户和系统提示上的有效性，并展示了在不同语言模型之间的零 - shot 可迁移性。

Abstract

We consider the problem of language model inversion: given outputs of a language model, we seek to extract the prompt that generated these outputs. We develop a new black-box method, output2prompt, that learns to

language model inversion prompt extraction black-box method sparse encoding technique zero-shot transferability

发现论文，激发创造

语言模型反演

语言模型的逆向推理问题研究中，使用下一令牌的概率分布信息可以恢复之前的提示令牌，即使对用户隐藏的文本也能通过模型的当前概率分布输出恢复未知的提示令牌。该研究考虑了多种模型访问场景，并展示了如何通过搜索即使在词汇表的每个令牌没有预测的情况下，通过恢复概率向量来重建的方法。在实验中，我们的逆向方法在 Llama-2 7b 上的重构提示上的 BLEU 为 59，令牌级别的 F1 为 78，并完全恢复了 27％的提示。

Nov, 2023

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

大规模语言模型的提示窃取攻击

我们提出了一种名为 prompt stealing attacks 的新攻击，该攻击旨在基于生成的答案窃取设计良好的 prompt，通过参数提取器和提示重构器实现，实验结果表明攻击的卓越性能，进一步引发关于大型语言模型安全问题的关注。

Feb, 2024

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

AutoPrompt: 使用自动生成的提示从语言模型中引导知识

利用自动化方法生成的 AutoPrompt，我们展示了预训练语言模型在自然语言推理、情感分析和关系提取方面的潜在能力，以及自动生成的提示方法是现有探究方法的一个可行的无参数替代方法。

Oct, 2020

基于困惑度度量和上下文信息的标记级对抗性提示检测

本文提出了一种基于令牌级别检测方法来识别对抗提示的方法，利用大型语言模型的能力来预测下一个令牌的概率，测量模型的困惑度并结合相邻令牌信息，以鼓励检测连续的对抗提示序列，提出了两种方法：一种将每个令牌识别为是否属于对抗提示的一部分，另一种估计每个令牌属于对抗提示的概率。

Nov, 2023

迫使他们坦白！从（生产）LLM 中进行强制知识提取

大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏，我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复，有效性达到 92％，速度快 10 到 20 倍，对编码任务也适用。

Dec, 2023

Prompt2Model: 从自然语言指令生成可部署的模型

通过 Prompt2Model 方法，可以使用少量的提示，训练出性能优异、体积小 700 倍的特定目的模型，用于自然语言处理任务。

Aug, 2023

通过模糊输入对大型语言模型进行越狱

通过采用 ObscurePrompt 方法，从模糊的文本入手，并利用强大的 LLM 进行迭代转换，增强攻击的稳健性，从而提高对 LLM 的破解效果，并改进先前的方法，以增强 LLM 的对齐性能。

Jun, 2024

XPrompt：通过联合提示归因解释大型语言模型的生成

该研究引入了基于联合提示归属的反事实解释框架 XPrompt，旨在解释少数提示文本是如何共同影响大型语言模型（LLM）的完整生成，并通过定义和利用多个评估指标来展示我们框架的忠实度和效率。

May, 2024