跨尺度泛化误差的建设性预测
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
本文采用实证方法针对机器翻译、语言建模、图像处理和语音识别等4个机器学习领域的数据,研究训练集大小、模型规模与推广误差之间的关系,结果表明推广误差遵循幂定律缩放,且模型改进只改变误差而不影响幂指数。此外,模型大小随数据规模的增大缩小,这些研究对于深度学习的研究、实践和系统设计具有重要意义。
Dec, 2017
本研究通过对深度学习模型的多方面度量,特别是模型对输入扰动的敏感性度量,研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系,并得出结论:训练的神经网络在其训练数据范围内更加鲁棒,这种鲁棒性与泛化能力有关联,而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。
Feb, 2018
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
本文通过实验证明,相比于之前研究中通常考虑模型大小因素对性能的影响,训练数据集的大小对模型性能的影响同样显著,实验结果发现,训练更小的数据子集可以带来更可靠的模型选择决策同时降低计算成本,并能估算出常见数据集在现代神经网络结构下的最小描述长度,为采用奥卡姆剃刀原则进行负责的模型选择提供了可能性。
Sep, 2020
该研究提出了一种理论,解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系,并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。
Feb, 2021
通过将校准误差分解为训练集的校准误差和校准泛化间隙,我们理论证明了深度神经网络在训练集上通常是校准的,校准泛化间隙受到标准泛化间隙的限制,因此具有小的泛化间隙的模型是校准的。
Oct, 2022
本研究旨在解决神经网络规模与数据量对性能提升影响的缺口。提出了一种新颖的理论框架,展示模型规模、训练时间和数据量三者如何相互影响,形成规模时间等价性。这一发现不仅挑战了目前的小模型短训练时间的实践,还为评估和优化大型网络性能提供了预测方法,具有重要的实际应用价值。
Sep, 2024
本研究针对机器学习从以泛化为中心向以扩展为中心的转变所带来的问题,探讨了传统正则化原则在新模型扩展时代的适用性。研究提出了“扩展规律交叉”的新现象,表明小规模有效的方法在大规模模型中可能不再有效。这些发现为模型设计和比较提供了新的指导原则。
Sep, 2024