Nov, 2024

利用统计和近似理论理解变压器神经网络在内在低维数据上的扩展规律

TL;DR本研究解决了变压器模型扩展规律缺乏严格理解的问题。通过建立新的统计估计和数学近似理论,提出了在低维流形数据上变压器泛化误差与训练数据规模和网络规模之间存在幂律关系,该关系依赖于数据内在维度。研究表明,数据的内在维度对变压器扩展规律具有重要影响,并且与实证观察结果高度一致。