真实的几何：大型语言模型在真假数据集表示中的出现线性结构

Oct, 2023

真实的几何：大型语言模型在真假数据集表示中的出现线性结构

The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets

Samuel Marks, Max Tegmark

TL;DR大语言模型 (LLM) 可以输出令人印象深刻的结果，但也容易输出错误信息。最近的研究开发了一种通过对 LLM 的内部激活进行训练推断 LLM 是否在讲真话的技术。然而，这一研究领域颇具争议，一些作者指出该方法在一些基本方面无法推广，存在概念上的问题。在本研究中，我们精心策划了一组高质量的真 / 假语句数据集，并利用这些数据集详细研究了 LLM 对真实性的表示结构，从三个方面获得证据：1. 展示 LLM 真 / 假语句表示的可视化结果，揭示了明显的线性结构；2. 将在一个数据集上训练的推断器推广到不同数据集的转移实验；3. 通过对 LLM 前向传递进行手术干扰，使其将假语句视为真实或将真实语句视为假。总体而言，我们提出证据表明语言模型线性地表示事实陈述的真实性或虚假性。我们还介绍了一种新技术，质量均值推断法，比其他推断技术具有更好的推广性和更多地与模型输出相关。

Abstract

large language models (LLMs) have impressive capabilities, but are also prone to outputting falsehoods. Recent work has developed techniques for inferring whether a LLM is telling the truth by training probes on

large language models llm representations probes truth or falsehood mass-mean probing

发现论文，激发创造

LLM 内在状态知道自己在撒谎

介绍了一种基于大型语言模型的 “激活函数值” 的真实性检测方法，进一步提高了文本可靠性和实际应用价值。

Apr, 2023

揭示 LLMs：时间知识图中潜在表示的演变

通过对 Large Language Models（LLMs）的实证分析，本文提出了一种新的端到端框架，能够解码 LLMs 中隐藏的事实知识，并使用时间性知识图表达其在各层中的演化，以实现对 LLMs 的机理解释。通过局部和全局的解释性分析，揭示了 LLMs 中存在的潜在错误和事实知识的演化模式，从而为 LLMs 的机理解释迈出了一步。

Apr, 2024

认知失调：为何语言模型输出与内部真实性表征不一致？

神经语言模型可用于评估事实陈述的真实性，工作发现查询与探测过程有时存在不一致性，故探测更为准确，且存在三种不一致类别：编造、欺骗和异质性。

Nov, 2023

线性表示假设与大语言模型的几何性质

用因果内积统一各种线性表示概念，通过使用反事实对实验表明线性表示概念的存在，与解释和控制的连接以及内积选择的基本作用。

Nov, 2023

语言模型中的真值判断：信念方向是上下文敏感的

我们通过对大型语言模型的隐空间进行研究发现，先前的关于模型的 ' 知识 ' 或' 信念 ' 的研究方法可以基于其隐空间中的方向来构建探测器，而我们的实验结果表明这些探测器的预测可能与前面的（相关）句子有条件关联，并且这种信念方向可以影响推理过程中的真相判断和上下文信息的整合。

Apr, 2024

大型語言模型中線性表示的起源

高层语义概念在大型语言模型的表示空间中按线性方式编码；本研究通过引入简单的潜在变量模型来研究这种线性表示的起源，并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。

Mar, 2024

超越线和圆：揭示大型语言模型中的几何推理差距

大型语言模型（LLMs）在数学和算法任务中展现日益增长的能力，但它们的几何推理技能尚未被充分探索。我们研究了 LLMs 在构造性几何问题求解上的能力，这是人类数学推理发展中最基本的一步。我们的工作揭示了当前 LLMs 面临的显著挑战，尽管在类似领域取得了很多成功。LLMs 在目标变量选择上存在偏见，并且在二维空间关系方面遇到困难，常常误代和产生对象及其放置的幻觉。为此，我们介绍了一个基于 LLMs 的多智能体系统框架，通过进行内部对话来增强它们现有的推理潜力。这项工作突出了 LLMs 在几何推理中目前的局限性，并通过自我纠正、协作和多样化角色专业化来改善几何推理能力。

Feb, 2024

神经网络中的新兴语言结构是脆弱的

本文提出了一种基于探测任务的神经网络模型的韧性度量方法，在通过语言模型中提取出的语言结构上评估了四种大型语言模型的一致性和鲁棒性，并发现神经网络的新兴句法表示具有脆弱性。

Oct, 2022

在 Llama 中定位撒谎：通过提示、探究和修补解析对真假问题上的指导诚实行为

通过对大型语言模型进行研究，本文探究了指示性不诚实，即明确要求 LLaMA-2-70b-chat 撒谎，通过提示工程方法找到了最能引起撒谎行为的提示语，并使用机械性可解释性方法定位了网络中发生这种行为的位置，在这五个层中找出 46 个特别重要的注意力头，使我们能够有针对性地干预以使撒谎模型诚实回答问题，我们展示了这些干预对于多个提示和数据集分割都具有稳健的效果，总体而言，我们的工作有助于更深入理解 LLMs 中的不诚实行为，以便我们能够希望防止它的发生。

Nov, 2023

LLM 多边考验：通过中间数据分析揭示 LLM 的事实辨别能力

基于 LLMs 的内部状态，我们引入了 LLM factoscope，一个基于 Siamese 网络的新型模型，用于事实检测。我们的研究揭示了 LLMs 在生成事实和非事实内容时内部状态的可区分模式，并在各种体系结构上展示了 LLM factoscope 的效果，在事实检测方面达到了超过 96% 的准确率。我们的工作为利用 LLMs 的内部状态进行事实检测开辟了一条新途径，并鼓励进一步探究 LLMs 的内部工作，以提高可靠性和透明度。

Dec, 2023