Jan, 2024

改变提示的蝴蝶效应:小的变化与越狱对大型语言模型的影响

TL;DR在这项研究中,我们探究了提示的构建方式对大型语言模型的决策是否产生影响。我们通过一系列针对不同文本分类任务的提示变化进行了实验。研究发现,即使是最小的扰动,如在提示的末尾添加一个空格,都可能导致大型语言模型改变其回答。此外,要求以 XML 格式回应和常用的破解行为可能对大型语言模型标注的数据产生灾难性影响。