理解 Transformer 中的加法

ICLROct, 2023

Understanding Addition in Transformers

Philip Quirke, Fazl, Barez

TL;DR这篇论文通过深入分析一个层次的 Transformer 模型在整数加法训练中的使用，揭示了该模型将任务划分为并行的、特定于数字的流，并对不同的数字位置采用不同的算法。研究还发现模型开始计算较晚但执行较快，识别并解释了一个稀有但损失较高的使用案例。总体上，该模型的算法得到了详细解释，这些发现通过严格的测试和数学建模得到了验证，对于机制解释性、人工智能安全性和对齐等广泛领域的工作具有重要贡献。我们的方法为分析更复杂的任务和多层 Transformer 模型打开了大门。

Abstract

Understanding the inner workings of machine learning models like transformers is vital for their safe and ethical use. This paper presents an in-depth analysis of a one-layer Transformer model trained for

machine learning models transformers integer addition parallel streams ai safety

发现论文，激发创造

利用局部注意力和网格样问题表示发现基本计算系统的 Transformer 模型

本文提出一种基于通用 Transformer 的深度学习模型，通过发现高效的算数程序，利用外部的网格状记忆进行多位数的加法计算，并且发掘了人类类似的计算策略，如位值对齐。

Jul, 2022

通过简单的算术任务研究变形金刚的限制

研究了表现形式对于序列到序列的语言模型学习加减法算术任务的影响，发现表现形式对模型的准确性有很大影响；通过引入位置标记，模型可以准确地学习添加和减少 60 位数字。无论参数和训练示例数量如何，模型都不能学习与训练期间数字长度无关的加和规则。

Feb, 2021

Transformer 中的传递算法

加法算法是一种简单的算术任务，并且通常使用进位算法执行。我们研究了 Transformer 模型如何实现这个算法，并将两个任务分配给网络的不同部分。我们首先关注两层编码器模型，并表明进位算法以模块化方式实现。第一层主要负责加法操作，第二层首先在注意力中决定哪些位置需要进位，然后在最终的 MLP 中进行进位运算。我们提供了一种简单的方法来准确确定哪些神经元负责这个任务。这种进位算法的实现适用于两层和三层模型的一系列超参数。对于小型的解码器模型，我们观察到相同的实现，并提供了三个 7B 大型语言模型中其存在的暗示性证据。

Jan, 2024

变压器能够通过正确的嵌入进行算术运算

通过在每个数字上添加编码其相对于数字起始位置的嵌入，解决了 transformers 在算术任务中表现较差的问题，并展示了该修复方法进一步提高性能的架构修改方法。通过解决位置问题，研究了 transformers 的逻辑推理能力，并发现通过单个 GPU 训练一天，仅使用 20 位数字，在 100 位加法问题上实现了高达 99% 的准确率的最新结果，并证明这种提高数字能力的方法也适用于其他多步骤推理任务，如排序和乘法。

May, 2024

使用数字分解评估 Transformer 语言模型在算术运算上的表现

本文研究如何通过分解数字来提高 Transformer 语言模型执行算术运算的准确性，称之为 “Calculon”，并将其与 GPT-3 在加减乘三个运算任务上进行了对比，结果表明在五位数加法任务上，Calculon 的准确率提高了 63％。

Apr, 2023

任意长度的加法泛化

本文介绍了一种新的训练方法，使得小型 Transformer 模型可以将两位数的加法推广到具有未知位数的数字，该方法模仿了一种常见的手动大数相加的技术，为我所知，这种方法以前没有在文献中探讨过，所有结果都可复现，相应的 R 代码可在 https://github.com/AGPatriota/ALGA-R/ 上获得。

May, 2024

使用 Transformer 关注数学语言

使用变压器架构生成、评估和训练数学表达式，将其作为字符级序列转换任务进行分析，建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上，最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。

Dec, 2018

位置描述对于 Transformer 算术很重要

通过修改位置编码或者调整算术任务的表示方式来解决使用位置信息解决小数字算术问题时性能较差的问题，并在乘法和加法任务中展示了改进的效果。

Nov, 2023

小型 Transformer 的算术教学

在不预训练的情况下，通过对训练数据进行简单的格式更改并使用包含中间步骤结果的思维链式数据进行训练，即便在完全缺乏预训练的情况下，也可以显著提高算术能力的准确性、样本复杂性和收敛速度。

Jul, 2023

算术变换器中的长度泛化

本文研究 transformers 在基本整数算术和泛化到比训练中出现的更长序列的两个挑战中的应对方法，发现相对位置嵌入能够实现简单任务的长度泛化，但是对于乘法而言失败，提出了训练集引导方法（priming），为训练集添加一些长序列以解决此问题，并证明了该方法的有效性。同时，讨论了 priming 在算术以外的潜在应用。

Jun, 2023