位置描述对于 Transformer 算术很重要

Nov, 2023

位置描述对于 Transformer 算术很重要

Positional Description Matters for Transformers Arithmetic

Ruoqi Shen, Sébastien Bubeck, Ronen Eldan, Yin Tat Lee, Yuanzhi Li...

TL;DR通过修改位置编码或者调整算术任务的表示方式来解决使用位置信息解决小数字算术问题时性能较差的问题，并在乘法和加法任务中展示了改进的效果。

Abstract

transformers, central to the successes in modern Natural Language Processing, often falter on arithmetic tasks despite their vast capabilities --which paradoxically include remarkable coding abilities. We observe

transformers positional encoding arithmetic tasks multiplication addition

发现论文，激发创造

位置耦合：利用任务结构优化 Transformer 模型的长度泛化

使用位置耦合方法的 Transformer 可以解决包括多位数的加法在内的算术任务，同时还可应用于其他算法任务。

May, 2024

通过简单的算术任务研究变形金刚的限制

研究了表现形式对于序列到序列的语言模型学习加减法算术任务的影响，发现表现形式对模型的准确性有很大影响；通过引入位置标记，模型可以准确地学习添加和减少 60 位数字。无论参数和训练示例数量如何，模型都不能学习与训练期间数字长度无关的加和规则。

Feb, 2021

变压器能够通过正确的嵌入进行算术运算

通过在每个数字上添加编码其相对于数字起始位置的嵌入，解决了 transformers 在算术任务中表现较差的问题，并展示了该修复方法进一步提高性能的架构修改方法。通过解决位置问题，研究了 transformers 的逻辑推理能力，并发现通过单个 GPU 训练一天，仅使用 20 位数字，在 100 位加法问题上实现了高达 99% 的准确率的最新结果，并证明这种提高数字能力的方法也适用于其他多步骤推理任务，如排序和乘法。

May, 2024

显式编码结构对算术任务的长度泛化至关重要

基于修改后的数字格式化和自定义位置编码，我们的方法允许 Transformer 在加法和乘法中以最多 5 位数的数字进行训练并推广到 50 位数，而无需使用更多的数据来处理更长的序列。

Jun, 2024

算术变换器中的长度泛化

本文研究 transformers 在基本整数算术和泛化到比训练中出现的更长序列的两个挑战中的应对方法，发现相对位置嵌入能够实现简单任务的长度泛化，但是对于乘法而言失败，提出了训练集引导方法（priming），为训练集添加一些长序列以解决此问题，并证明了该方法的有效性。同时，讨论了 priming 在算术以外的潜在应用。

Jun, 2023

随机位置编码增强 Transformer 的长度泛化

本研究发现，Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是，它们不能在任意长度序列上泛化，即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案，可以解决长序列位置编码失效的问题，并通过大规模实验，证明该方案可提高分类精度。

May, 2023

小型 Transformer 的算术教学

在不预训练的情况下，通过对训练数据进行简单的格式更改并使用包含中间步骤结果的思维链式数据进行训练，即便在完全缺乏预训练的情况下，也可以显著提高算术能力的准确性、样本复杂性和收敛速度。

Jul, 2023

利用局部注意力和网格样问题表示发现基本计算系统的 Transformer 模型

本文提出一种基于通用 Transformer 的深度学习模型，通过发现高效的算数程序，利用外部的网格状记忆进行多位数的加法计算，并且发掘了人类类似的计算策略，如位值对齐。

Jul, 2022

Transformer 长度外推：以位置编码为视角的调查

该研究论文对基于 Transformer 的预训练语言模型和长度外推问题进行了系统性的回顾，聚焦于可外推位置编码方法，旨在帮助读者深入理解已有方法并为未来研究提供启示。

Dec, 2023

Transformer 模型可以实现长度概括，但不具备鲁棒性

使用适当的数据格式和位置编码的组合，本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功，然而与内分布泛化不同，长度泛化仍然是脆弱的，受到随机权重初始化和训练数据顺序等因素的显著影响，导致不同随机种子之间存在较大差异。

Feb, 2024