探索变形金刚的归纳偏差：从无限的视角

Feb, 2024

探索变形金刚的归纳偏差：从无限的视角

Towards Understanding Inductive Bias in Transformers: A View From Infinity

Itay Lavie, Guy Gur-Ari, Zohar Ringel

TL;DR在无限过参数化的高斯过程极限中，我们研究了 Transformer 中的归纳偏置，并认为 Transformer 更倾向于对序列空间中的更多置换对称函数有偏见。通过展示对称群的表示理论的运用，我们可以在数据集对令牌之间的置换对称时给出定量分析预测。我们介绍了一个简化的 Transformer 模块，并解决了模型的极限，包括对学习曲线和网络输出的准确预测。我们证明在常见的设置中，可以导出关于上下文长度可学习性的一个紧密的边界的缩放定律。最后，我们认为 WikiText 数据集确实具有一定的置换对称度。

Abstract

We study inductive bias in transformers in the infinitely over-parameterized Gaussian process limit and argue transformers tend to be bias

inductive bias transformers permutation symmetric functions representation theory scaling law

发现论文，激发创造

为什么敏感函数对 Transformer 较难？

在变压器架构下，输入空间敏感性限制了损失函数的变化趋势，使得变压器在一般化方面表现出低敏感性和低程度的偏好，并且在计算简单形式语言（如 PARITY）和长度一般化方面存在困难。

Feb, 2024

变形金刚的诞生：记忆视角

本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡，发现这些模型相对较快地学习了全局信息，但对于上下文信息中的二元组的识别则较慢，同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制，同时研究了数据分布属性的作用。

Jun, 2023

Transformer 训练中参数范数增长的影响：梯度下降的归纳偏置

本篇论文通过研究 transformer 在训练过程中的参数增长情况，证明了网络逐渐逼近于饱和状态的离散网络模型，得出饱和性是梯度下降在自然语言处理中的一个新的归纳偏差并通过自注意力机制分析了 transformer 的不同注意力头的作用。

Oct, 2020

迈向归纳偏差的精确计算

我们提出了一种计算归纳偏差的新方法，该方法涉及对来自假设空间的随机假设的损失分布进行建模，以估计相对于这些假设需要的归纳偏差，从而提供了一种信息理论解释特定模型架构对特定任务的好处的度量，并为开发需要更大归纳偏差的任务提供了定量指导，从而鼓励更强大的归纳偏差的发展。

Jun, 2024

超越 Transformers 的函数学习

本研究通过向 Transformer 架构添加两种归纳学习偏差来探究个体的外推能力，结果表明，这些偏差对大型神经网络模型有帮助，也揭示了人类的归纳性学习偏差的类型。

Apr, 2023

变压器是通用预测器

本研究发现了 Transformer 架构在语言模型方面的局限性，证明了它在信息理论意义上具有普适预测性，并在非渐近数据区域中分析了各种 Transformer 架构组件的性能，尤其是在数据有效训练的情境中。我们通过对合成和真实数据集的实验验证了我们的理论分析。

Jul, 2023

只预训结构：利用迁移学习理解语言归纳偏差

本研究通过对语言模型进行先验的结构性偏置，探索了不同感性学习偏差的影响，并研究了三种感性偏差的相对成功：1）递归，分层处理的感性偏差；2）无法通过上下文自由文法建模的无限制令牌 - 令牌依赖的感性偏差；和 3）一个 Zipfian 幂律词汇分布的感性偏差。我们发现，复杂的令牌 - 令牌交互形成了最好的感性偏向，并且在非上下文自由情况下最强。同时，我们还表明，独立于语法结构，Zipfian 词汇分布形成一个良好的感性偏向。

Apr, 2023

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

缩放定律与模型架构：归纳偏置如何影响缩放？

本文通过系统研究了 Transformer、Switch Transformers、Universal Transformers、Dynamic convolutions、Performers 和 MLP-Mixers 等十个不同的模型架构的可扩展性行为，发现架构是进行扩展化的重要考虑因素之一，最佳表现的模型在不同尺度下可能会波动，并对如何评估模型架构在社区中的重要性具有重要影响。

Jul, 2022

旅行之词：Transformer 的几何解释

通过引入新颖的几何视角，本文揭示了 Transformer 操作的内部机制，主要贡献在于说明层归一化将潜在特征限制在一个超球面上，从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究，我们的发现揭示了早期层中的清晰查询 - 键注意力模式，并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察，我们给出了 Transformer 的直观理解，将其描述为沿着超球面的词粒子的轨迹的建模过程。

Sep, 2023