追踪和操作神经数学问题求解器中的中间值

Jan, 2023

追踪和操作神经数学问题求解器中的中间值

Tracing and Manipulating Intermediate Values in Neural Math Problem Solvers

Yuta Matsumoto, Benjamin Heinzerling, Masashi Yoshikawa, Kentaro Inui

TL;DR针对语言模型处理多步推理的复杂输入方式缺乏深刻理解的状况，本研究提出了通过基于简单算术问题及其中间值来分析 Transformer 模型处理这些输入的方法，并使用 PCA 测量了模型激活和中间值之间的相关性。结果显示模型对特定中间值有局部性，这有助于增强模型的可解释性。

Abstract

How language models process complex input that requires multiple steps of inference is not well understood. Previous research has shown that information about intermediate values of these inputs can be extracted from the activations of the models, but it is unclear where that informati

language modeling transformer model interpretability inference principal component analysis

发现论文，激发创造

使用电路探针揭示变形金刚中的因果变量

神经网络模型在各种复杂任务上取得了高性能，但它们所实现的算法往往难以解释。我们提出了一种新的分析技术 —— 电路探测，通过自动发现计算假定的中间变量的低层电路，实现了对模型参数级别的有针对性的切割，从而开展因果分析。我们对简单算术任务上的模型应用了这种方法，证明了它在（1）解密模型所学习的算法，（2）揭示模型内部结构以及（3）追踪电路在训练过程中的发展方面的有效性。我们将电路探测与其他方法在这三个实验中进行比较，发现它在效果上与现有的分析方法相当甚至更加有效。最后，我们在一个真实的应用案例中演示了电路探测的应用，发现了在 GPT2-Small 和 Medium 模型中负责主谓一致和反身指代的电路。

Nov, 2023

探索语言模型中的内部数理能力：ALBERT 的研究案例

该研究提出了一种方法来研究 Transformer 语言模型内部如何表示数字数据，并使用该方法分析了 ALBERT 语言模型系列。通过主成分分析（PCA），我们提取这些模型用于表示数字和序数的令牌的学习嵌入，PCA 结果显示不同大小、训练和初始化分开的 ALBERT 模型一致地学习使用变化最大的轴来表示各种数值概念的近似排序，数字及其文本对应部分分别在不同的簇中表示，但在 2D 空间中沿着相同的方向增长。我们的发现表明，纯粹用于建模文本的语言模型可以理解基本的数学概念，为与定量推理交叉的 NLP 应用开辟了新的发展路径。

Apr, 2024

使用因果中介分析方法理解语言模型中的算术推理

本研究利用因果中介分析框架对大型语言模型在算术问题上的机制解释进行了研究，结果表明，中后期少量层次的激活对算术问题预测结果产生显著影响，模型对算术问题和事实知识的预测有不同的激活模式，并揭示了语言模型中涉及算术推理的特定组分。

May, 2023

使用 Transformer 关注数学语言

使用变压器架构生成、评估和训练数学表达式，将其作为字符级序列转换任务进行分析，建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上，最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。

Dec, 2018

神经网络稳健可解释性的因果分析

本文提出了一种基于因果分析的鲁棒性干预方法，以捕获神经网络内部的因果机制，从而审核模型行为，获得更加稳定和可信的解释，该方法适用于图像分类等任务。

May, 2023

揭开黑匣子：分析预训练语言模型中的注意力权重和隐藏状态在非语言任务中的应用

本文使用约束算术问题，分析了预训练语言模型中注意力权重分数和隐藏状态。我们发现模型可以以适度结构化的方式解决分层问题，类似于人类解决问题的策略，并推断出模型可以推广到长度超过训练集的序列。注意力分析发现，相对于模型的最终层，第 10 层是解决模型最优的层。同时，我们发现注意力分析存在局限性，特别是无法捕捉二维模式。

Jun, 2023

我的数学变形器在做什么？—— 可解释性和泛化性的三个结果

本文研究了矩阵求逆和特征值分解训练的 transformer 的失败案例和超出分布行为，发现错误的模型预测仍保留解决方案的深度数学特性，并且几乎所有的模型失败都可以归因于问题或解决方案的属性，还证明了仔细选择训练数据集可以加速训练，同时允许模型在其训练分布之外进行推广，从而证明了 transformers 并不是仅仅从记忆的例子中 “插值”。

Oct, 2022

使用 Transformers 进行线性代数

通过例子，Transformer 可以学习执行数字计算。作者从基本矩阵操作到特征值分解和求逆，研究了线性代数的九个问题，并引入和讨论了四种编码方案以表示实数。通过使用随机矩阵训练的 Transformers 在所有问题上都能达到高的准确度，并且它们的模型对噪声具有鲁棒性，在训练分布之外也具有泛化能力。特别是，针对 Laplace 分布的特征值进行训练的模型对不同类别的矩阵具有泛化能力：Wigner 矩阵或具有正特征值的矩阵。反之则不成立。

Dec, 2021

使用 Transformer 和无歧义表征自动求解算术问题

本文提出了使用 Transformer 网络将数学问题转化为等价的前缀、中缀和后缀表达式，并使用预训练的通用文本语料库进行训练以提高性能，与以往最先进的方法相比，最好的神经网络方法可将准确率平均提高近 10%。

Dec, 2019

学习正确的潜在变量是否必然改善上下文中的学习？

对于大型自回归模型，如 Transformer，它们可以通过上下文学习 (即 ICL) 在不学习新权重的情况下解决任务，从而提供了高效解决新任务的方法。本文系统地研究了明确推断任务潜变量的效果，并发现与标准 Transformer 相比，在任务相关潜变量方面存在很少可辨别的差异，倾向于任务相关潜变量并不能普遍提高超出分布的性能；研究还发现，虽然瓶颈层可以有效地从上下文中提取潜在的任务变量，但下游处理很难利用它们进行稳健的预测。这项研究突显了 Transformer 在实现结构化的上下文学习解决方案方面的固有局限性，并表明虽然推断正确的潜变量有助于解释性，但对于解决这个问题来说并不足够。

May, 2024