ICLROct, 2023

魔术词是什么?LLM 提示的控制理论

TL;DR我们将提示工程化正式化为对 LLMs 的最优控制问题,通过在 LLM 的输出分布中调节提示作为控制变量。我们提出一个简单的问题:给定一个令牌序列,是否总是存在一个我们可以添加的提示,以便将 LLM 引导到准确预测最终令牌?我们称这样一个最优提示为魔法词,因为添加提示会导致 LLM 输出正确答案。我们从控制论中获得灵感,提出了一种度量 LLM 可操纵性的度量标准 $k-ε$ 可操纵性。我们计算了一系列大型语言模型的 $k-ε$ 可操纵性,包括 Falcon-7b、Llama-7b 和 Falcon-40b,在 5000 个 WikiText 因果语言建模任务上。令人惊讶的是,我们发现对于每个模型,在超过 97% 的 WikiText 实例中,存在长度不超过 10 个令牌的魔法词。