自回归生成建模的规模定律
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
该研究提出了一种理论,解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系,并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。
Feb, 2021
通过本文所提及的实证研究,我们揭示了神经机器翻译中,编码器-解码器Transformer模型的扩展特性。具体而言,本文提出了一个公式来描述交叉熵损失与编解码器大小的扩大倍数之间的关系,并在多种扩展方法及语言下展现了估计的准确性。我们同时观察到编码器与解码器扩展的效应不同,基于此提供了编码器/解码器容量的最优化分配建议。我们还发现模型的扩展表现受到训练/测试集组成偏差的极大影响,称之为“构造偏差”,这种偏差对减少交叉熵损失十分重要。最后,我们调查了交叉熵损失与生成的翻译质量之间的关系,并发现在测试数据自不同语言的数据翻译转换中,模型大小的改变对模型的推理质量有着不同的影响。我们在本研究中使用的所有模型的生成文本都允许被公开。
Sep, 2021
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以$1/ extit{width}$的速度收敛到无限宽度动力学,但在后期表现为$ extit{width}^{-c}$的速度,其中$c$取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
Visual AutoRegressive modeling (VAR) improves autoregressive image generation surpassing diffusion transformers, exhibiting power-law scaling laws and zero-shot task generalization.
Apr, 2024
本研究旨在解决神经网络规模与数据量对性能提升影响的缺口。提出了一种新颖的理论框架,展示模型规模、训练时间和数据量三者如何相互影响,形成规模时间等价性。这一发现不仅挑战了目前的小模型短训练时间的实践,还为评估和优化大型网络性能提供了预测方法,具有重要的实际应用价值。
Sep, 2024
本研究解决了变压器模型扩展规律缺乏严格理解的问题。通过建立新的统计估计和数学近似理论,提出了在低维流形数据上变压器泛化误差与训练数据规模和网络规模之间存在幂律关系,该关系依赖于数据内在维度。研究表明,数据的内在维度对变压器扩展规律具有重要影响,并且与实证观察结果高度一致。
Nov, 2024