Oct, 2023

真实的几何:大型语言模型在真假数据集表示中的出现线性结构

TL;DR大语言模型 (LLM) 可以输出令人印象深刻的结果,但也容易输出错误信息。最近的研究开发了一种通过对 LLM 的内部激活进行训练推断 LLM 是否在讲真话的技术。然而,这一研究领域颇具争议,一些作者指出该方法在一些基本方面无法推广,存在概念上的问题。在本研究中,我们精心策划了一组高质量的真 / 假语句数据集,并利用这些数据集详细研究了 LLM 对真实性的表示结构,从三个方面获得证据:1. 展示 LLM 真 / 假语句表示的可视化结果,揭示了明显的线性结构;2. 将在一个数据集上训练的推断器推广到不同数据集的转移实验;3. 通过对 LLM 前向传递进行手术干扰,使其将假语句视为真实或将真实语句视为假。总体而言,我们提出证据表明语言模型线性地表示事实陈述的真实性或虚假性。我们还介绍了一种新技术,质量均值推断法,比其他推断技术具有更好的推广性和更多地与模型输出相关。