并非所有语言模型特征都是线性的

May, 2024

并非所有语言模型特征都是线性的

Not All Language Model Features Are Linear

Joshua Engels, Isaac Liao, Eric J. Michaud, Wes Gurnee, Max Tegmark

TL;DR语言模型利用线性表示假说来执行计算，但我们研究表明某些语言模型的表示可能是固有的多维的。我们开发了一种基于不可约多维特征的严格定义，用于确定这些特征是否能够分解为独立或非共现的低维特征。通过使用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的多维特征，这些自动发现的特征包括具有显著可解释性的例子，例如表示星期和月份的圆形特征。我们确定了使用这些确切圆形特征来解决涉及星期和月份的模块算术计算问题的任务。最后，通过对 Mistral 7B 和 Llama 3 8B 进行干预实验，我们提供了这些圆形特征在这些任务中确实是计算的基本单元的证据，并通过分解这些任务的隐藏状态为可解释的组件，找到了更多的圆形表示。

Abstract

Recent work has proposed the linear representation hypothesis: that language models perform computation by manipulating one-dimensional representations of concepts ("features") in activation space. In contrast, we explore whether some language model representations may be inherently mu

linear representation hypothesis multi-dimensional features sparse autoencoders modular arithmetic hidden states

发现论文，激发创造

大型語言模型中線性表示的起源

高层语义概念在大型语言模型的表示空间中按线性方式编码；本研究通过引入简单的潜在变量模型来研究这种线性表示的起源，并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。

Mar, 2024

上下文化词表示的低维线性几何

本文研究了 ELMO 和 BERT 中的单词表示的线性几何，发现低维子空间编码了各种语言特征，包括结构化依赖关系，子空间之间存在着层次关系，可以用于对 BERT 的输出分布进行细粒度的操作。

May, 2021

语言表征空间中的低维结构在大脑响应中有所体现

研究了神经语言模型、翻译模型和语言标注任务中学习到的表示之间的关系，发现了一种低维的语言表示嵌入模型，可以编码处理各种 NLP 任务所需的表示之间的关系，并且可以用来预测各种特征空间与人类大脑对自然语言刺激的响应之间的映射关系，同时主要维度可以用于创建显示大脑的语言处理层次结构的度量。

Jun, 2021

量化语言模型中的特征稀疏性

最近的研究工作提出了一种假设，即语言模型中的激活可以被建模为对应于输入文本特征的向量的稀疏线性组合。在这个假设下，这些工作旨在使用稀疏编码重构特征方向。我们开发了度量方法来评估这些稀疏编码技术的成功，并测试线性和稀疏假设的有效性。我们展示了我们的度量方法可以预测合成稀疏线性激活的稀疏水平，并可以区分稀疏线性数据和其他几种分布。我们使用我们的度量方法来测量几个语言模型中的稀疏水平。我们发现有证据表明语言模型的激活可以准确地被特征的稀疏线性组合所建模，这种情况比控制数据集要显著得多。我们还展示了模型的激活在第一层和最后一层似乎是最稀疏的。

Oct, 2023

多语言语言模型表示的几何学

本文使用 XLM-R 为案例研究，研究了多语言语言模型如何在维持共享多语言表示空间同时在每种语言中编码语言敏感信息，并证明了多语言语言模型沿着语言敏感和语言中性轴编码信息，使其能够提取下游任务和跨语言传递学习的各种特征。

May, 2022

稀疏自编码器发现语言模型中的高度可解释特征

使用稀疏自编码器识别语言模型内部的方向，以消除超级位置现象，并达到模型的透明度和可操控性。

Sep, 2023

多尺度 Transformer 语言模型

本文研究了多尺度变压器语言模型，提出了三种不同的架构，并实验性地证明了多尺度表示在内存效率，计算时间和困惑度方面的优势，具有特殊的吸引力。

May, 2020

深度语言表示中可分离流形的出现

该研究使用均场理论流形分析来分析来自大规模上下文嵌入模型的语言表示，发现在不同的模型家族中出现了语言流形的证据，尤其是在多义词和包含许多单词的词性类别中，此外，发现这些流形中的线性可分性的出现是由流形半径、维度和流形间相关性的共同减少所驱动的。

Jun, 2020

线性表示假设与大语言模型的几何性质

用因果内积统一各种线性表示概念，通过使用反事实对实验表明线性表示概念的存在，与解释和控制的连接以及内积选择的基本作用。

Nov, 2023

语言模型表示空间和时间

使用 Llama-2 模型，我们通过分析三个空间数据集（全球、美国、纽约地点）和三个时间数据集（历史人物、艺术品、新闻标题）中学到的表示来找到 LLMs 学习的证据，发现 LLMs 在多个尺度上学习了空间和时间的线性表示，表征对提示的变化具有鲁棒性，并且跨不同实体类型（例如城市和地标）统一。此外，我们还确定了可靠地编码空间和时间坐标的个别 “空间神经元” 和 “时间神经元”。我们的分析证明了现代 LLMs 获取了关于空间和时间等基本维度的结构化知识，支持它们不仅仅学习了表面统计数据，而是字面上的世界模型。

Oct, 2023