在 Transformer 语言模型中的电路组件重用

Oct, 2023

在 Transformer 语言模型中的电路组件重用

Circuit Component Reuse Across Tasks in Transformer Language Models

Jack Merullo, Carsten Eickhoff, Ellie Pavlick

TL;DR通过电路分析，揭示了语言模型中行为的机制性可解释性。证明了观察的洞见既适用于特定任务的发现，也适用于一般算法的发现，并通过调整注意头以修复电路来证明了这一过程的相似性。结果表明，大型语言模型的行为可以通过一些可解释的任务通用算法构建模块和计算组件来解释。

Abstract

Recent work in mechanistic interpretability has shown that behaviors in language models can be successfully reverse-engineered through circuit analysis. A common criticism, however, is that each circuit is task-specific, and thus such analysis cannot contribute to understanding the mod

mechanistic interpretability circuit analysis task-specific circuit generalization across tasks algorithmic building blocks

发现论文，激发创造

自然语言生成模型中的间接对象识别电路实现及其解释性

本文通过探究 GPT-2 small 在间接宾语识别等自然语言任务中的表现来解释仿真学习模型的行为，其中提及了 26 种注意力头，本研究是目前规模最大的一次试图从机器学习模型的内部组件入手逆向工程自然行为。我们以及利用了因果干预等解释性方法对我们的解释进行了可靠性评估，工作证明了对大型机器学习模型的机械理解是可行的。

Nov, 2022

定位 Transformer 中的跨任务序列延续电路

通过对序列相似性任务的电路分析与比较，我们揭示了语义相关的序列依赖于具有类似角色的共享电路子图，并且共享计算结构的记录有助于更好地预测模型行为、识别错误和更安全的编辑过程，这对于构建更健壮、对齐和可解释的语言模型是一个关键步骤。

Nov, 2023

预训练 Transformer 中的知识传递

研究人员通过深入研究语言模型的计算图，发现知识电路在表达特定知识方面起到了重要作用。他们还评估了当前知识编辑技术对这些知识电路的影响，并利用知识电路分析和解释语言模型的行为。这些研究为我们理解 Transformer 的工作原理以及指导知识编辑的改进设计提供了深入的见解。

May, 2024

电路变压器：通过预测下一个门实现端到端电路设计

通过预测下一个逻辑门，使用基于 Transformer 的神经模型对电子设计任务进行了改进，取得了显著的性能提升，并保持了严格的等效性约束。

Mar, 2024

电路意味着什么？知识编辑视角

通过知识编辑的视角，我们介绍了一种学习语言模型电路的新方法。通过在 GPT2-XL 模型中提取电路，使用多样的文本分类数据集和层次关系数据集，我们发现这些电路包含实体知识，但在知识编辑中对新知识的抵抗力高于互补电路。此外，我们研究了电路尺寸的影响，发现理想的电路可能包含模型参数的 5% 至 50%。我们还检查了不同数据集中电路之间的重叠情况，发现中等相似性。总之，我们的研究结果为电路的功能提供了新的见解，并引入了进一步解释性和安全性研究的方向。

Jun, 2024

通过复用经验证的电路增强对语言模型的信任

使用数学和逻辑规范的框架构建的变压器模型经过全面验证，证明了通过插入已验证的任务模块可以提高使用语言模型的可验证性和可信度，减少复杂复合模型的验证工作量，并为语言模型的安全性迈出重要一步。

Feb, 2024

使用线性计算图自动识别局部和全局电路

采用稀疏自编码器（SAEs）和跳跃 SAEs 为基础，引入电路发现流程，使用 Hierarchical Attribution 方法对于 GPT2-Small 模型分析了三种电路类型（括号电路、归纳电路和间接对象识别电路），揭示了现有发现之下的新发现。

May, 2024

以信为本：在寻找模型机制时超越电路重叠

通过引入 EAP-IG 方法，本文旨在更好地保持电路的核心属性：忠诚度。我们的实验证明，使用 EAP 找到的电路比使用 EAP-IG 找到的电路更不忠诚，尽管两者在与之前使用因果干预发现的电路的节点重叠方面都很高。总之，在使用电路来比较模型解决任务的机制时，应该衡量忠诚度而不是重叠程度。

Mar, 2024

使用电路探针揭示变形金刚中的因果变量

神经网络模型在各种复杂任务上取得了高性能，但它们所实现的算法往往难以解释。我们提出了一种新的分析技术 —— 电路探测，通过自动发现计算假定的中间变量的低层电路，实现了对模型参数级别的有针对性的切割，从而开展因果分析。我们对简单算术任务上的模型应用了这种方法，证明了它在（1）解密模型所学习的算法，（2）揭示模型内部结构以及（3）追踪电路在训练过程中的发展方面的有效性。我们将电路探测与其他方法在这三个实验中进行比较，发现它在效果上与现有的分析方法相当甚至更加有效。最后，我们在一个真实的应用案例中演示了电路探测的应用，发现了在 GPT2-Small 和 Medium 模型中负责主谓一致和反身指代的电路。

Nov, 2023

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019