学习 Transformer 程序

Jun, 2023

Learning Transformer Programs

Dan Friedman, Alexander Wettig, Danqi Chen

TL;DR本文介绍的一种采用编程语言设计的可调试 Transformer 程序可以替代机器学习传统编写的 Transformers 来解决一系列算法问题和 NLP 任务。

Abstract

Recent research in mechanistic interpretability has attempted to reverse-engineer transformer models by carefully inspecting network weights and activations. However, these approaches require considerable manual

mechanistic interpretability transformer models programmable networks algorithmic problem-solving nlp

发现论文，激发创造

Tracr: 可解释性实验室中的编译变压器

在解释性研究中，我们提出使用手动构建的 transformer 模型作为可解释性测试平台，通过 Tracr 将人类可读的程序翻译为 transformer 模型的权重，从而得到实现包括计算令牌频率，排序，Dyck-n 括号验证等程序的多个 ground truth transformers。

Jan, 2023

像 Transformer 一样思考

本文提出了一种计算模型，将 Transformer-encoder 的基本组件 attention 和 feed-forward 计算映射到简单的原语中，并形成一种编程语言 RASP，用于编程解决可能由 Transformer 学习的任务，并演示了如何训练 Transformer 模仿 RASP 解决方案，并且利用该模型分析了所需图层和注意头数。

Jun, 2021

Transformers 能否递归地学会解决问题？

本文研究了神经网络在程序编写和形式验证方面的行为，重点关注结构递归，并评估了变压器模型在近似这些函数中的能力及其局限性，并通过重构算法正确预测了近似函数的失败案例的 91％。

May, 2023

AI 黑盒子的开启：基于机械解释的程序合成

基于神经网络的机制可解释性自动合成方法 MIPS，将学习到的算法自动转化为 Python 代码，解决了 62 个可以由 RNN 学习的算法任务中的 32 个问题，并对 GPT-4 的补充具有高度互补性，且不使用人工训练数据。

Feb, 2024

基于有界 Dyck 文法的研究案例：变压器使用短视方法不可解释

研究关注于解释性方法，通过检查模型的不同方面（例如权重矩阵或注意力模式）来理解训练模型（例如 Transformer）实现的算法。通过理论结果和对合成数据的仔细控制实验的组合，我们对专注于模型的个别部分而不是整个网络的方法提出了批判性观点。我们使用学习（有界）Dyck 语言的简单合成设置来理论上展示了解决此任务的模型集合满足的结构特征（基于形式语言的思想，即泵引理）并证明了最佳解集合具有丰富的定性特点；特定情况下，单层的注意力模式可以 “几乎随机化”，同时保持网络的功能性。通过大量实验证明了这些结论并不仅仅是理论产物：即使在严格约束模型架构的情况下，经过标准训练也可以得到截然不同的解决方案。因此，基于检查 Transformer 中的个别头部或权重矩阵的解释性声明可能是误导性的。

Dec, 2023

通过机制可解释性为模型性能提供可证明的保证

使用机制性可解释性推导和简明证明模型性能的形式保障，通过形式下界评估小型 Transformer 模型在 Max-of-k 任务上的准确率，并通过多种证明策略量化地展示了机制性理解与性能保障的紧密联系，最终确定了结构缺失噪声的叠加作为使用机制性可解释性生成简明证明的关键挑战。

Jun, 2024

二进制和三进制变压器的机理解释性

研究表明，将二进制和三进制变压器网络应用于大型语言模型能够显著减少内存并提高推理速度，并且研究结果显示，这些网络在学习模块化加法时与全精度变压器网络学习的算法相似，因此无法作为语言模型中更可解释的替代方案。

May, 2024

从 Transformer 中提取有限状态机

我们提出了一种专门为 Transformer 模型设计的自动机提取算法，通过对 Transformer 模型的内部潜在表示进行转换过程的跟踪并使用经典的教学方法来将其解释为确定有限状态自动机（DFA），揭示了 Transformer 模型如何理解形式语言的结构，从而增强了 Transformer 模型的可解释性并深入了解了机器学习系统如何处理形式语言。

Jun, 2024

基于 Transformer 的语言模型的机制可解释性实用综述

机械解释性是一种新兴的解释性子领域，通过反向工程其内部计算来理解神经网络模型。本文为了填补这一领域的空白，提出了一份全面的调查报告，概述了机械解释性的研究对象、调查技术、评估结果、重要发现和应用，以及为新手提供的指南。此外，还指出了该领域存在的当前差距，并讨论了潜在的未来发展方向。

Jul, 2024

神经网络如何理解程序？

本文探讨了基于 NLP 预训练技术的代码表示学习的进展，提出了一种新的程序语义学习模式，即模型应该学习由与操作语义基本操作对齐的表示和不可或缺的环境转换信息构成的信息。为了验证我们的建议，我们提出了一个名为 OSCAR 的分层 Transformer 预训练模型，通过从 IR 和静态分析导出的编码表示中学习来表示基本操作和环境转换信息，证明了 OSCAR 在许多实际软件工程任务中理解程序语义的杰出能力。

May, 2021