解锁1位神经网络扩展背后的理论
本文采用实证方法针对机器翻译、语言建模、图像处理和语音识别等4个机器学习领域的数据,研究训练集大小、模型规模与推广误差之间的关系,结果表明推广误差遵循幂定律缩放,且模型改进只改变误差而不影响幂指数。此外,模型大小随数据规模的增大缩小,这些研究对于深度学习的研究、实践和系统设计具有重要意义。
Dec, 2017
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
该研究提出了一种理论,解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系,并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。
Feb, 2021
通过本文所提及的实证研究,我们揭示了神经机器翻译中,编码器-解码器Transformer模型的扩展特性。具体而言,本文提出了一个公式来描述交叉熵损失与编解码器大小的扩大倍数之间的关系,并在多种扩展方法及语言下展现了估计的准确性。我们同时观察到编码器与解码器扩展的效应不同,基于此提供了编码器/解码器容量的最优化分配建议。我们还发现模型的扩展表现受到训练/测试集组成偏差的极大影响,称之为“构造偏差”,这种偏差对减少交叉熵损失十分重要。最后,我们调查了交叉熵损失与生成的翻译质量之间的关系,并发现在测试数据自不同语言的数据翻译转换中,模型大小的改变对模型的推理质量有着不同的影响。我们在本研究中使用的所有模型的生成文本都允许被公开。
Sep, 2021
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以$1/ extit{width}$的速度收敛到无限宽度动力学,但在后期表现为$ extit{width}^{-c}$的速度,其中$c$取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。
Apr, 2024
本研究旨在解决神经网络规模与数据量对性能提升影响的缺口。提出了一种新颖的理论框架,展示模型规模、训练时间和数据量三者如何相互影响,形成规模时间等价性。这一发现不仅挑战了目前的小模型短训练时间的实践,还为评估和优化大型网络性能提供了预测方法,具有重要的实际应用价值。
Sep, 2024
本研究针对机器学习从以泛化为中心向以扩展为中心的转变所带来的问题,探讨了传统正则化原则在新模型扩展时代的适用性。研究提出了“扩展规律交叉”的新现象,表明小规模有效的方法在大规模模型中可能不再有效。这些发现为模型设计和比较提供了新的指导原则。
Sep, 2024
本研究解决了对机器学习模型缩放规律的估计和解释不足的问题。通过收集和分析485个预训练模型的大规模数据集,提出了一套最佳实践,发现利用训练过程中的中间检查点进行拟合可以显著提高预测准确性,且相似规模的模型提供了更可靠的性能估计。这一发现为模型选择和预训练决策提供了重要参考。
Oct, 2024