统一的神经网络缩放法则与规模时间等价性
本文采用实证方法针对机器翻译、语言建模、图像处理和语音识别等4个机器学习领域的数据,研究训练集大小、模型规模与推广误差之间的关系,结果表明推广误差遵循幂定律缩放,且模型改进只改变误差而不影响幂指数。此外,模型大小随数据规模的增大缩小,这些研究对于深度学习的研究、实践和系统设计具有重要意义。
Dec, 2017
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
该研究提出了一种理论,解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系,并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。
Feb, 2021
通过使用高质量的数据剪枝度量来破解神经网络权重学习数据集大小的幂律估计,可以实现更好的误差缩放。本文进行了实证研究,并测试了十种不同的数据剪枝度量,发现现有的大多数度量在ImageNet上表现不佳。作者因此开发了一种新的自监督剪枝度量,具有与最佳监督度量相当的性能。研究表明,发现好的数据剪枝度量可能是深度学习资源消耗大幅降低的一个可行途径。
Jun, 2022
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以$1/ extit{width}$的速度收敛到无限宽度动力学,但在后期表现为$ extit{width}^{-c}$的速度,其中$c$取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
大规模深度学习模型的实证研究表明,随着模型大小和数据规模的增加,训练模型的测试误差呈多项式改进;然而,神经缩放定律的一般形式预测增加模型大小会单调改善性能,这与传统的认知不同,即测试误差包含逼近、偏差和方差误差,并且方差错误随模型大小增加而增加。本研究在无限维线性回归设置下研究了缩放规律的理论;假设最优参数符合高斯先验,数据协方差矩阵具有幂律谱指数为a>1,我们证明了测试误差的可还原部分为Θ(M^{-(a-1)} + N^{-(a-1)/a});方差错误随M的增加而增加,但由于随机梯度下降的隐式正则化作用,被其他误差所主导从而在界限中消失。我们的理论与实证神经缩放定律一致,并经过数值模拟验证。
Jun, 2024
通过建立信息论基础,我们研究了神经缩放定律,并揭示了在无限宽度的两层神经网络生成的数据中,数据和模型大小的最佳关系大致呈线性,进一步验证了大规模的实证研究结果。
Jun, 2024
本研究探讨深度算子网络的神经规模定律,填补了现有理论框架不足的空白。我们提出了一种理论框架,通过分析近似和泛化误差,揭示了网络模型规模与训练数据规模之间的关系,并为具有低维结构的输入函数提供了更紧的误差界。这些发现为算子学习的神经规模定律提供部分解释,并为其应用奠定了理论基础。
Oct, 2024
本研究解决了1位大语言模型(LLM)性能与参数数量之间关系的理论缺口,首次严谨建立了1位模型的扩展定律。研究表明,尽管权重限制为$\{-1, +1\}$,1位模型在增加网络宽度时能够收敛至极小损失,同时与全精度模型的输出差异保持微不足道。此理论突破为未来1位神经网络在精度方面的标准化提供了有力的支持。
Nov, 2024