用于长度泛化的循环变换器

Sep, 2024

Looped Transformers for Length Generalization

Ying Fan, Yilun Du, Kannan Ramchandran, Kangwook Lee

TL;DR本研究解决了变换器在处理未知长度输入时的泛化能力不足的问题。通过引入循环变换器并采用自适应步数的方法，显著改善了长度泛化能力。研究发现，循环变换器能够学习到高度泛化的解决方案，从而在多个任务中表现出色。

Abstract

Recent work has shown that Transformers trained from scratch can successfully solve various arithmetic and algorithmic tasks, such as adding numbers and computing parity. While these Transformers generalize well

发现论文，激发创造

可编程计算机的环形变压器

本文提出了一种使用 transformer 网络作为通用计算机的框架，演示了一种将迭代算法映射为循环可执行程序的方法，并展示了注意力机制的多种用途。

Jan, 2023

算术变换器中的长度泛化

本文研究transformers在基本整数算术和泛化到比训练中出现的更长序列的两个挑战中的应对方法，发现相对位置嵌入能够实现简单任务的长度泛化，但是对于乘法而言失败，提出了训练集引导方法（priming），为训练集添加一些长序列以解决此问题，并证明了该方法的有效性。同时，讨论了priming在算术以外的潜在应用。

Jun, 2023

通过任务提示改进Transformer的长度泛化

使用任务提示的方法改善长度泛化问题，在经典的排序问题上验证了其有效性，并通过探测和可视化技术提出了模型学习行为的理论构建，进一步提高了模型在未知长度上的性能。

Oct, 2023

从插值到外推：算术Transformer的完全长度概括

通过实验和注意力分析，我们研究了transformer模型在学习算术算法（如加法和乘法）方面的固有能力，并确定了几个实现最佳长度泛化的关键因素。我们展示了transformer模型能够借助有针对性的注意力偏置来推广到长长度，并引入了注意力偏置校准（ABC）阶段，使模型能够自动学习适当的注意力偏置，我们将其与相对位置编码中的机制联系起来。我们证明使用ABC，transformer模型能够在某些算术任务上达到前所未有的完美长度广义。

Oct, 2023

转换器可以学习哪些算法？长度泛化研究

大型语言模型的新兴泛化特性方面已经有了惊人的发现，但在诸多简单推理任务（如算术和奇偶性等）上仍存在问题。本研究针对算法任务的长度泛化范围，通过提出一个统一的框架，阐述了Transformer模型在特定任务上表现出的能力和方式。

Oct, 2023

Transformer 模型可以实现长度概括，但不具备鲁棒性

使用适当的数据格式和位置编码的组合，本研究首次展示了标准Transformers在能够外推到输入长度2.5倍的序列长度方面的成功，然而与内分布泛化不同，长度泛化仍然是脆弱的，受到随机权重初始化和训练数据顺序等因素的显著影响，导致不同随机种子之间存在较大差异。

Feb, 2024

位置耦合：利用任务结构优化Transformer模型的长度泛化

使用位置耦合方法的Transformer可以解决包括多位数的加法在内的算术任务，同时还可应用于其他算法任务。

May, 2024

图灵程序的通用长度泛化

通过提出图灵程序，将算法任务分解为模仿图灵机计算步骤的链式思维策略从而实现对一系列算法任务的稳健长度泛化，并证明了变压器模型能够实施图灵程序，并构造了一个模拟任意图灵机的简单 RASP（Weiss et al.）程序。

Jul, 2024

理解变换器长度泛化的正式框架

本研究解决了变换器在处理长于训练序列的输入时的泛化能力不足问题。我们提出了一个严格的理论框架，分析使用可学习绝对位置编码的因果变换器的长度泛化，证明了一类问题的长度泛化可能性。这一理论不仅解释了许多经验观察，还为预测变换器的长度泛化能力提供了可证明的方法。

Oct, 2024

算术变压器可以在操作数长度和数量上实现长度泛化

本研究解决了变压器在长度泛化方面的不足，特别是在多操作数加法和乘法任务中。通过设计特定任务的临时缓存和多层位置耦合的方法，我们首次在算术变压器上实现了约2-3倍的长度泛化。该工作可能在推进算术理解模型能力方面产生重要影响。

Oct, 2024