线性表示假设与大语言模型的几何性质

Nov, 2023

线性表示假设与大语言模型的几何性质

The Linear Representation Hypothesis and the Geometry of Large Language Models

Kiho Park, Yo Joong Choe, Victor Veitch

TL;DR用因果内积统一各种线性表示概念，通过使用反事实对实验表明线性表示概念的存在，与解释和控制的连接以及内积选择的基本作用。

Abstract

Informally, the 'linear representation hypothesis' is the idea that high-level concepts are represented linearly as directions in some representation space. In this paper, we address two closely related questions: What does "linear representation" actually mean? And, how do we make sen

linear representation hypothesis geometric notions counterfactuals linear probing model steering

发现论文，激发创造

大型語言模型中線性表示的起源

高层语义概念在大型语言模型的表示空间中按线性方式编码；本研究通过引入简单的潜在变量模型来研究这种线性表示的起源，并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。

Mar, 2024

真实的几何：大型语言模型在真假数据集表示中的出现线性结构

大语言模型 (LLM) 可以输出令人印象深刻的结果，但也容易输出错误信息。最近的研究开发了一种通过对 LLM 的内部激活进行训练推断 LLM 是否在讲真话的技术。然而，这一研究领域颇具争议，一些作者指出该方法在一些基本方面无法推广，存在概念上的问题。在本研究中，我们精心策划了一组高质量的真 / 假语句数据集，并利用这些数据集详细研究了 LLM 对真实性的表示结构，从三个方面获得证据：1. 展示 LLM 真 / 假语句表示的可视化结果，揭示了明显的线性结构；2. 将在一个数据集上训练的推断器推广到不同数据集的转移实验；3. 通过对 LLM 前向传递进行手术干扰，使其将假语句视为真实或将真实语句视为假。总体而言，我们提出证据表明语言模型线性地表示事实陈述的真实性或虚假性。我们还介绍了一种新技术，质量均值推断法，比其他推断技术具有更好的推广性和更多地与模型输出相关。

Oct, 2023

大型语言模型中分类和层级概念的几何结构

大型语言模型的表示空间中如何编码语义含义是可解释性中的一个根本问题。本文研究了这一领域的两个基本问题：第一，如何表示类别概念，如 “哺乳动物”、“鸟类”、“爬行动物”、“鱼类” 等；第二，如何编码概念之间的层级关系，例如 “狗” 是 “哺乳动物” 的一种。我们通过扩展线性表示假设来回答这些问题，并发现了一个非常简单的结构：简单的类别概念被表示为单纯形，具有层级关系的概念在某种意义上是正交的，并且（作为结果）复杂的概念被表示为由单纯形的直和构成的多面体，反映了其层级结构。我们使用来自 WordNet 的数据验证了这些理论结果，在 Gemma 大型语言模型上估计了 957 个具有层级关系的概念的表示。

Jun, 2024

超越相关性：大型语言模型是否学习到空间的因果表征？

通过表示相似性分析和线性和非线性探测，我们发现了 DeBERTa 和 GPT-Neo 中潜在的空间表示，并通过因果干预实验证明了空间表示对模型的下一个词预测性能和依赖地理空间信息的下游任务的影响，这些实验证明了大型语言模型在解决地理空间相关任务时学习和使用内部空间模型。

Dec, 2023

上下文化词表示的低维线性几何

本文研究了 ELMO 和 BERT 中的单词表示的线性几何，发现低维子空间编码了各种语言特征，包括结构化依赖关系，子空间之间存在着层次关系，可以用于对 BERT 的输出分布进行细粒度的操作。

May, 2021

因果探索的几何概念

大语言模型基于文本的实值表示进行预测，包括从训练数据中学到的语言特性和偏见（如性别）。本研究通过将表示空间的子空间进行正交投影进行了对这些概念的信息分析，并提出了概念受控生成的方法。实证结果表明，在至少一个模型中，R-LACE 返回了包含约一半总概念信息的一维子空间，该子空间可用于精确操纵生成词的概念值。

Jul, 2023

并非所有语言模型特征都是线性的

语言模型利用线性表示假说来执行计算，但我们研究表明某些语言模型的表示可能是固有的多维的。我们开发了一种基于不可约多维特征的严格定义，用于确定这些特征是否能够分解为独立或非共现的低维特征。通过使用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的多维特征，这些自动发现的特征包括具有显著可解释性的例子，例如表示星期和月份的圆形特征。我们确定了使用这些确切圆形特征来解决涉及星期和月份的模块算术计算问题的任务。最后，通过对 Mistral 7B 和 Llama 3 8B 进行干预实验，我们提供了这些圆形特征在这些任务中确实是计算的基本单元的证据，并通过分解这些任务的隐藏状态为可解释的组件，找到了更多的圆形表示。

May, 2024

语言表征实际代表着什么？

本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示，尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系，发现结构相似是最能影响语言表示相似性的，而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。

Jan, 2019

多语言语言模型的几何：一个平等的视角

研究了多语言语言模型不同语言的代表性，发现它们在欧几里得空间中是由独特的几何形状表示的，并且设计了跨语言相似性指数来度量语言之间的距离。结果表明，低资源语言在任何模型中都不如高资源语言表现得好。

May, 2023

多语言语言模型表示的几何学

本文使用 XLM-R 为案例研究，研究了多语言语言模型如何在维持共享多语言表示空间同时在每种语言中编码语言敏感信息，并证明了多语言语言模型沿着语言敏感和语言中性轴编码信息，使其能够提取下游任务和跨语言传递学习的各种特征。

May, 2022