神经缩放定律解释
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
通过研究生成式图像建模、视频建模、多模式图像与文本模型和数学问题求解等四个领域,我们发现交叉熵损失的实证缩放定律,指出自回归变压器在性能上平滑提高,其最佳模型大小还受到计算预算影响,同时也寻找到了特定领域的进一步扩展规律。这些结果加强了缩放定律对于神经网络性能以及下游任务的重要影响。
Oct, 2020
通过使用高质量的数据剪枝度量来破解神经网络权重学习数据集大小的幂律估计,可以实现更好的误差缩放。本文进行了实证研究,并测试了十种不同的数据剪枝度量,发现现有的大多数度量在ImageNet上表现不佳。作者因此开发了一种新的自监督剪枝度量,具有与最佳监督度量相当的性能。研究表明,发现好的数据剪枝度量可能是深度学习资源消耗大幅降低的一个可行途径。
Jun, 2022
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以$1/ extit{width}$的速度收敛到无限宽度动力学,但在后期表现为$ extit{width}^{-c}$的速度,其中$c$取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
大规模深度学习模型的实证研究表明,随着模型大小和数据规模的增加,训练模型的测试误差呈多项式改进;然而,神经缩放定律的一般形式预测增加模型大小会单调改善性能,这与传统的认知不同,即测试误差包含逼近、偏差和方差误差,并且方差错误随模型大小增加而增加。本研究在无限维线性回归设置下研究了缩放规律的理论;假设最优参数符合高斯先验,数据协方差矩阵具有幂律谱指数为a>1,我们证明了测试误差的可还原部分为Θ(M^{-(a-1)} + N^{-(a-1)/a});方差错误随M的增加而增加,但由于随机梯度下降的隐式正则化作用,被其他误差所主导从而在界限中消失。我们的理论与实证神经缩放定律一致,并经过数值模拟验证。
Jun, 2024
通过建立信息论基础,我们研究了神经缩放定律,并揭示了在无限宽度的两层神经网络生成的数据中,数据和模型大小的最佳关系大致呈线性,进一步验证了大规模的实证研究结果。
Jun, 2024
本研究旨在解决神经网络规模与数据量对性能提升影响的缺口。提出了一种新颖的理论框架,展示模型规模、训练时间和数据量三者如何相互影响,形成规模时间等价性。这一发现不仅挑战了目前的小模型短训练时间的实践,还为评估和优化大型网络性能提供了预测方法,具有重要的实际应用价值。
Sep, 2024
本研究针对神经网络缩放法则在内核极限之外提出了一个可解模型,分析了模型大小、训练时间和可用数据总量如何影响性能。我们发现特征学习能够显著提高针对困难任务的缩放能力,提出了一种新的计算优化策略,以适应特征学习领域的参数和训练时间扩展。
Sep, 2024