基于深度学习的图像重建的比例律
本文采用实证方法针对机器翻译、语言建模、图像处理和语音识别等 4 个机器学习领域的数据,研究训练集大小、模型规模与推广误差之间的关系,结果表明推广误差遵循幂定律缩放,且模型改进只改变误差而不影响幂指数。此外,模型大小随数据规模的增大缩小,这些研究对于深度学习的研究、实践和系统设计具有重要意义。
Dec, 2017
大规模深度学习模型的实证研究表明,随着模型大小和数据规模的增加,训练模型的测试误差呈多项式改进;然而,神经缩放定律的一般形式预测增加模型大小会单调改善性能,这与传统的认知不同,即测试误差包含逼近、偏差和方差误差,并且方差错误随模型大小增加而增加。本研究在无限维线性回归设置下研究了缩放规律的理论;假设最优参数符合高斯先验,数据协方差矩阵具有幂律谱指数为 a>1,我们证明了测试误差的可还原部分为 Θ(M^{-(a-1)} + N^{-(a-1)/a});方差错误随 M 的增加而增加,但由于随机梯度下降的隐式正则化作用,被其他误差所主导从而在界限中消失。我们的理论与实证神经缩放定律一致,并经过数值模拟验证。
Jun, 2024
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度,其中 $c$ 取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
通过使用高质量的数据剪枝度量来破解神经网络权重学习数据集大小的幂律估计,可以实现更好的误差缩放。本文进行了实证研究,并测试了十种不同的数据剪枝度量,发现现有的大多数度量在 ImageNet 上表现不佳。作者因此开发了一种新的自监督剪枝度量,具有与最佳监督度量相当的性能。研究表明,发现好的数据剪枝度量可能是深度学习资源消耗大幅降低的一个可行途径。
Jun, 2022
通过调整数据规模、模型大小和训练时间,提高预训练的准确性可以有利于大多数下游任务的表现,但是当上游准确度提高时,下游任务的表现会饱和,并且与上游和下游任务的性能呈非线性关系,因此需要对下游性能建立一个模型以反映这种饱和现象。
Oct, 2021
本研究探索了对比语言 - 图像预训练(CLIP)的缩放定律,使用了公共数据集和开放源代码来研究缩放规律,并发现训练分布在缩放规律中起关键作用。通过在多个下游任务中评估最大规模的公共 CLIP 模型,我们发现在多个下游任务中,有效训练集大小、模型大小和计算量与性能之间具有幂律缩放关系。
Dec, 2022
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
通过研究最先进的文本到图像模型生成的合成图像在规模上的表现,本文发现合成图像在训练监督图像分类器时性能较差原因是某些概念无法被现成的文本到图像模型生成,但对于与真实图像结合训练 CLIP 模型或存在真实图像供给不足或评估数据集与训练数据差异较大的情况下,扩大合成数据规模可能特别有效。
Dec, 2023