倒推镜头：将语言模型梯度投影到词汇空间

Feb, 2024

倒推镜头：将语言模型梯度投影到词汇空间

Backward Lens: Projecting Language Model Gradients into the Vocabulary Space

Shahar Katz, Yonatan Belinkov, Mor Geva, Lior Wolf

TL;DR理解 Transformer-based 语言模型是深度学习社区的一个关键目标，最近的可解释性方法在前向通道的权重和隐藏状态上帮助发现信息在模型中的流动，本研究将这种方法扩展到后向通道和梯度，证明了梯度矩阵可以被看作是前向和后向通道输入的低秩线性组合，并开发了投影这些梯度到词汇项的方法，探索了如何在语言模型的神经元中存储新信息的机制。

Abstract

Understanding how transformer-based language models (LMs) learn and recall information is a key goal of the deep learning community. Recent interpretability methods project weights and hidden states obtained from

transformer-based language models interpretability methods backward pass gradients new information storage

发现论文，激发创造

解读 Transformer 的注意力动态记忆与可视化 GPT 的语义信息流

通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释，我们可以将 GPT 的前向传递可视化为交互式流图，从而发现模型输出结果的原因和 LM 组件在模型中的作用。

May, 2023

对 Transformer 语言模型的层间通信的理解

通过分析 Transformer 语言模型中的机制，研究揭示了其通过低秩通信信道在不同层之间传递和存储特征的方式，通过分解注意力头权重矩阵进而预测层间相互作用的方法，以及利用该机制改善内部模型表示和权重来提升任务性能的结构学习，为进一步分析复杂行为提供帮助。

Jun, 2024

关于语言模型潜空间的语义：一种基于词汇定义的方法

我们介绍了一种名为 “基于词汇定义的语义” 的开创性方法，它在语言模型（LMs）的潜空间中建立了一个固定的参考框架，确保了在 LM 词汇基础上的绝对语义分析。通过广泛的实验，我们的方法超越了检索增强生成和参数有效微调的最先进方法，展示了它的功效和广泛适用性。

Jan, 2024

变压器前馈层通过在词汇空间中促进概念来建立预测

通过反向工程变压器模型中的前馈神经网络层的运算过程，分析其词汇空间中的更新，控制预测结果，提高计算效率。

Mar, 2022

大型語言模型中線性表示的起源

高层语义概念在大型语言模型的表示空间中按线性方式编码；本研究通过引入简单的潜在变量模型来研究这种线性表示的起源，并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。

Mar, 2024

Transformer 模型中表示形式的自下而上演化：机器翻译和语言建模目标研究

本文研究不同学习目标下深度神经网络中单个标记的表现形式和学习的特征空间结构如何在各层之间演变，通过经典相关性分析和互信息估计研究信息如何在 Transformer 的不同层之间流动，并说明此流程如何取决于学习目标的选择。

Sep, 2019

通过任务空间解释语言模型

通过构建语言任务空间，借助相似性探测与梯度差分的微调方法，研究发现大型语言模型更好地泛化到语言任务的总体概念，利用其共享结构。此外，预训练通过加强相关语言任务之间的参数共享来增加语言处理的分布性。整体泛化模式在训练过程中基本稳定且没有明显分界点，这可能解释了语言模型缺乏成功的课程策略的原因。

Jun, 2024

光谱滤波器、暗信号和注意力池

将中间表示投影到词汇表是转换器模型 LLMs 的一种越来越流行的解释工具，我们提出了一种定量扩展方法，并基于将词汇表嵌入和未嵌入矩阵的奇异向量进行分组来定义中间表示的谱滤波器。通过保持注意力下沉，我们发现尽管部分抑制嵌入谱的大小，预训练模型的损失可以保持较低。最后，我们发现吸引许多标记的标记的表示在谱的尾部具有较大的投影。

Feb, 2024

跳到结论：利用线性转换简化 Transformer

通过使用线性转换法，我们展示了在语言模型中激活层早期的内部决策过程，这种方法不仅可以产生更加精确的近似结果，还具有节省计算资源的优点。

Mar, 2023

语言模型是否对未来的标记进行计划？

transformers 在推断期间是否有预先思考。我们提出了两种解释：预缓存和面包屑。通过训练语言模型来测试这些假设，我们在合成数据设置和自回归语言建模设置中找到了明确的证据。

Apr, 2024