May, 2024

多头 Transformer 动态的无限极限

TL;DR我们分析了特征学习阶段中 Transformer 模型的训练动力学的各种尺度极限,确定了能够在训练过程中实现无限宽度和深度极限、允许注意层更新的一组参数化;然后利用动力平均场理论(DMFT)中的工具,分析了各种无限极限(无限关键词 / 查询维度、无限头、无限深度),这些极限具有不同的统计描述,取决于所采取的无限极限和如何缩放注意层;我们提供了收敛到这些极限的数值证据,并讨论了参数化如何在质量上影响了已学习到的特征。