使用 Transformer 进行计数和算法推广

AAAIOct, 2023

使用 Transformer 进行计数和算法推广

Counting and Algorithmic Generalization with Transformers

Simon Ouellette, Rolf Pfister, Hansueli Jud

TL;DR机器学习中的算法泛化是指以一种能够概括超出数据分布的方式学习生成数据的底层算法。在本研究中，我们分析了在涉及计数时，不论是隐式还是显式所需的算法泛化。我们展示了标准 Transformer 模型基于的架构决策阻碍了此类任务的超出分布性能。特别是，我们讨论了使用层归一化和通过 softmax 归一化注意力权重的后果。通过消融引起问题的操作，我们证明通过使用非常轻量级的架构，修改后的 Transformer 能够表现出良好的计数算法泛化性能。

Abstract

algorithmic generalization in machine learning refers to the ability to learn the underlying algorithm that generates data in a way that generalizes out-of-distribution. This is generally considered a difficult t

algorithmic generalization machine learning transformers counting architecture

发现论文，激发创造

转换器可以学习哪些算法？长度泛化研究

大型语言模型的新兴泛化特性方面已经有了惊人的发现，但在诸多简单推理任务（如算术和奇偶性等）上仍存在问题。本研究针对算法任务的长度泛化范围，通过提出一个统一的框架，阐述了 Transformer 模型在特定任务上表现出的能力和方式。

Oct, 2023

基于结构化任务训练的 Transformer 模型的系统泛化和涌现结构

该文探讨了怎样使用 Transformer 网络在算法任务中表现良好，展示了多层 transformer 网络在任务分解中的可靠性解决方案，以及所有相关任务中的共享计算的利用。

Oct, 2022

从插值到外推：算术 Transformer 的完全长度概括

通过实验和注意力分析，我们研究了 transformer 模型在学习算术算法（如加法和乘法）方面的固有能力，并确定了几个实现最佳长度泛化的关键因素。我们展示了 transformer 模型能够借助有针对性的注意力偏置来推广到长长度，并引入了注意力偏置校准（ABC）阶段，使模型能够自动学习适当的注意力偏置，我们将其与相对位置编码中的机制联系起来。我们证明使用 ABC，transformer 模型能够在某些算术任务上达到前所未有的完美长度广义。

Oct, 2023

语言模型需具备归纳偏见进行归纳计数

通过对训练语言模型进行计数，我们发现传统的 RNN 在归纳计数方面的性能远远优于现代 RNN，并且 Transformers 在域外计数方面依赖于位置嵌入，这一发现呼吁学术界重新审视对形式特征的基本函数的应用范围。

May, 2024

上下文计数：对变压器在定量任务上的机理研究

该研究论文介绍了一种上下文计数任务，通过理论和实证分析，揭示了 Transformer 在性能和可解释性方面的影响因素，特别是发现因果关注机制更适合该任务，并且没有位置编码可以获得最佳准确性。

May, 2024

Transformer 模型可以实现长度概括，但不具备鲁棒性

使用适当的数据格式和位置编码的组合，本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功，然而与内分布泛化不同，长度泛化仍然是脆弱的，受到随机权重初始化和训练数据顺序等因素的显著影响，导致不同随机种子之间存在较大差异。

Feb, 2024

变压器语言模型在算法学习上的限制

我们分析了 Transformer 语言模型在学习离散算法方面的能力，通过引入两个需要组合多个离散子任务的新任务，我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时，度量了学习的基本组合。我们观察到，最先进的 Transformer 语言模型的组合能力非常有限，而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理，证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。

Feb, 2024

元学习变形金刚进行上下文通用学习

本文研究了通过 Meta-learning 或者说 Learning-to-learn 的方式来训练黑盒子模型成为通用的上下文学习算法，同时发现相比于标准模型，黑盒子模型训练时的瓶颈不是参数数量而是可以访问的状态大小。此外，本文提出了一些实际操作手段，如改变训练集分布来改善通用学习算法的 Meta-training 和 Meta-generalization。

Dec, 2022

使用 Transformer 测量神经证明生成中的系统化概括能力

研究 Transformer 语言模型在自然语言中进行基于逻辑推理的任务，探究它们的系统泛化能力，发现其在逆向推理证明方面表现更优，并且发现没有经过证明生成训练的模型更适合处理长证明的问题。研究结果强调了 TLM 在逻辑推理中的系统泛化行为，并且对其核心推理策略的深入研究提出了启示。

Sep, 2020

基于范数的变压器的序列长度无关普适性界

该研究提供了一种不依赖输入序列长度的基于规范化的 Transformer 架构的广义化界限，并使用基于覆盖数的方法证明了该界限。我们使用三种新颖的覆盖数界限来上界 Transformer 的 Rademacher 复杂性，并展示了这种广义化界限适用于常见的 Transformer 训练技术：屏蔽并预测屏蔽词。此外，我们还在一个稀疏多数数据集上进行了模拟研究，从实证上验证了我们的理论发现。

Oct, 2023