大型語言模型中線性表示的起源

Mar, 2024

On the Origins of Linear Representations in Large Language Models

Yibo Jiang, Goutham Rajendran, Pradeep Ravikumar, Bryon Aragam, Victor Veitch

TL;DR高层语义概念在大型语言模型的表示空间中按线性方式编码；本研究通过引入简单的潜在变量模型来研究这种线性表示的起源，并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。

Abstract

Recent works have argued that high-level semantic concepts are encoded "linearly" in the representation space of large language models. In this work, we study the origins of such linear representations. To that e

high-level semantic concepts linear representations latent variable model next token prediction implicit bias

发现论文，激发创造

线性表示假设与大语言模型的几何性质

用因果内积统一各种线性表示概念，通过使用反事实对实验表明线性表示概念的存在，与解释和控制的连接以及内积选择的基本作用。

Nov, 2023

上下文化词表示的低维线性几何

本文研究了 ELMO 和 BERT 中的单词表示的线性几何，发现低维子空间编码了各种语言特征，包括结构化依赖关系，子空间之间存在着层次关系，可以用于对 BERT 的输出分布进行细粒度的操作。

May, 2021

并非所有语言模型特征都是线性的

语言模型利用线性表示假说来执行计算，但我们研究表明某些语言模型的表示可能是固有的多维的。我们开发了一种基于不可约多维特征的严格定义，用于确定这些特征是否能够分解为独立或非共现的低维特征。通过使用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的多维特征，这些自动发现的特征包括具有显著可解释性的例子，例如表示星期和月份的圆形特征。我们确定了使用这些确切圆形特征来解决涉及星期和月份的模块算术计算问题的任务。最后，通过对 Mistral 7B 和 Llama 3 8B 进行干预实验，我们提供了这些圆形特征在这些任务中确实是计算的基本单元的证据，并通过分解这些任务的隐藏状态为可解释的组件，找到了更多的圆形表示。

May, 2024

Transformer 语言模型中的关系解码的线性性

基于 transformer 语言模型的研究中，发现存在一种简单而可解释的、但在各种情况下应用不一的知识表示策略，其主要通过关系、线性变换以及预测表达出来。

Aug, 2023

文本的线性动力学系统模型

该研究通过概率隐变量序列模型，使用前向算法实现连续状态 Kalman 滤波器来学习单词的表示。通过 EM 算法准确地优化参数，使用所学习到的单词嵌入作为标记任务的特征，在标记任务中实现显著的准确度改进，并通过线性递归神经网络通过我们的模型的参数来初始化非线性递归神经网络语言模型，降低了其训练时间和困惑度。

Feb, 2015

在大型语言模型中识别线性关系概念

用于在 Transformer 语言模型的给定隐藏层中找到对应于可解释的人类概念的概念方向的线性关系概念技术（LRC）通过首先将主体和客体之间的关系建模为线性关系嵌入（LRE），并在倒转 LRE 同时使用较早的客体层，从而找到既可以作为分类器良好工作又能因果地影响模型输出的概念方向。

Nov, 2023

大语言模型中情感的线性表征

在这项研究中，我们发现情感在大型语言模型中以线性方式表示，通过因果干预，我们证明情感表示在特定方向是有因果关系的。此外，我们揭示了情感表示涉及的注意力和神经元的机制，并发现了一种名为 “summarization motif” 的现象，其中情感不仅仅在情绪化的词汇上表示，也在中性位置（如标点符号和名称）进行总结。我们还展示了在 Stanford Sentiment Treebank 的零样本分类任务中，当去除情感方向时，几乎有 36% 的总分类准确度损失是由于在逗号位置去除总结性情感方向造成的。

Oct, 2023

大型语言模型几何信息

该研究探讨了大型语言模型（LLMs）中嵌入的信息编码，并发现与模型大小存在幂律关系的表示熵。基于此观察，提出了一个基于（条件）熵的理论以阐明该缩放定律现象。此外，通过使用信息论和回归技术，研究 LLMs 的自回归结构，并检查最后一个标记与前文标记之间的关系。具体地，我们建立了新标记的信息增益与岭回归之间的理论联系。此外，我们还探索了 Lasso 回归在选择有意义的标记方面的有效性，有时优于相关的注意力权重。最后，通过进行对比实验，发现信息分布在各个标记中，而不仅仅集中在特定的 “有意义” 标记中。

Feb, 2024

语言模型中的概念形成与对齐：将潜在空间中的统计模式与概念分类框架联系起来

该研究探讨了语言模型内的概念形成和对齐，提出了一种识别语言模型中概念和它们之间层次组织的机制，从 Glove 到 ALBERT 和 T5 等不同的语言模型，利用这些模型生成的语义嵌入中的内在结构提取出概念的分类和层次关系，从而揭示了语言模型如何发展概念理解，并为进一步改善它们的推理能力和运用真实世界知识的能力开启了研究之门。同时，我们进行了实验证明了从基于 transformer 的语言模型中独立提取这些抽象概念表示的可能性。通过观察到的概念形成以及将概念表示从推理模块中隔离出来，可以实现有针对性的标记工程，为知识转移、可解释的人工智能和开发更模块化、概念基础的语言模型带来潜在应用。

Jun, 2024

揭示 LLMs：时间知识图中潜在表示的演变

通过对 Large Language Models（LLMs）的实证分析，本文提出了一种新的端到端框架，能够解码 LLMs 中隐藏的事实知识，并使用时间性知识图表达其在各层中的演化，以实现对 LLMs 的机理解释。通过局部和全局的解释性分析，揭示了 LLMs 中存在的潜在错误和事实知识的演化模式，从而为 LLMs 的机理解释迈出了一步。

Apr, 2024