Feb, 2024

探索变形金刚的归纳偏差:从无限的视角

TL;DR在无限过参数化的高斯过程极限中,我们研究了 Transformer 中的归纳偏置,并认为 Transformer 更倾向于对序列空间中的更多置换对称函数有偏见。通过展示对称群的表示理论的运用,我们可以在数据集对令牌之间的置换对称时给出定量分析预测。我们介绍了一个简化的 Transformer 模块,并解决了模型的极限,包括对学习曲线和网络输出的准确预测。我们证明在常见的设置中,可以导出关于上下文长度可学习性的一个紧密的边界的缩放定律。最后,我们认为 WikiText 数据集确实具有一定的置换对称度。