Jun, 2024

捕捉具有激活的 LLM 任务漂移

TL;DR通过扫描和分析语言模型的激活状态,我们提出了两种探测方法,发现仅使用线性分类器即可在分布外测试集上准确检测出指令漂移,且其泛化能力出乎意料地适用于未知任务领域,如提示注入、越狱和恶意指令。我们的方法无需对语言模型进行任何修改或生成文本,最大程度地实现了可部署性和成本效益,并避免了对不可靠模型输出的依赖。为了促进基于激活状态的任务检查、解码和可解释性的进一步研究,我们将发布我们的大规模任务跟踪工具包,其中包括超过 50 万个实例的数据集,四种 SoTA 语言模型的表示以及检查工具。