学习曲线理论

Feb, 2021

Learning Curve Theory

Marcus Hutter

TL;DR本研究论文重点研究了神经网络中数据尺寸 (n) 对于训练或测试误差的普适性缩放规律，并通过研发最简单的模型来分析学习曲线，探究数据分布是否对于这种规律产生影响。

Abstract

Recently a number of empirical "universal" scaling law papers have been published, most notably by OpenAI. `Scaling laws' refers to power-law decreases of training or test error w.r.t. more data, larger neural networks, and/or more compute. In this work we focus on scaling w.r.t.

universal scaling laws neural networks data size learning curves data distribution

发现论文，激发创造

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

线性回归中的缩放定律：计算、参数和数据

大规模深度学习模型的实证研究表明，随着模型大小和数据规模的增加，训练模型的测试误差呈多项式改进；然而，神经缩放定律的一般形式预测增加模型大小会单调改善性能，这与传统的认知不同，即测试误差包含逼近、偏差和方差误差，并且方差错误随模型大小增加而增加。本研究在无限维线性回归设置下研究了缩放规律的理论；假设最优参数符合高斯先验，数据协方差矩阵具有幂律谱指数为 a>1，我们证明了测试误差的可还原部分为 Θ(M^{-(a-1)} + N^{-(a-1)/a})；方差错误随 M 的增加而增加，但由于随机梯度下降的隐式正则化作用，被其他误差所主导从而在界限中消失。我们的理论与实证神经缩放定律一致，并经过数值模拟验证。

Jun, 2024

利用幂律缩放应对人工智能面临的关键挑战

使用幂律缩放在深度学习中有助于处理当前人工智能应用中的关键挑战，可用于测量训练复杂性和机器学习任务算法的量化层次，并建立数据集大小估计的基准以实现期望的测试准确性。

Nov, 2022

神经网络梯度下降训练中的普适性尺度律

本文通过对梯度下降训练的神经网络的优化轨迹进行研究，展示了学习轨迹可以用大训练时间的显式渐近特征描述。

May, 2021

揭开缩放法则之迷：第一部分

本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效，但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素，并提供透明的逐步指导，通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式，我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力，包括 (1) 最小可能测试损失；(2) 实现特定损失所需的最小训练步骤和处理的标记数；(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小；以及 (4) 完整的测试损失轨迹和任意批大小。

Mar, 2024

神经网络规模定律的信息论基础

通过建立信息论基础，我们研究了神经缩放定律，并揭示了在无限宽度的两层神经网络生成的数据中，数据和模型大小的最佳关系大致呈线性，进一步验证了大规模的实证研究结果。

Jun, 2024

显微镜下的比例定律：从小尺度实验预测变形器的性能

本文通过对自然语言处理任务的实证研究，发现神经比例定律不仅仅用于模型性能的预测，还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。

Feb, 2022

最近邻分类器的两个尺度定律阶段

通过研究最近邻分类器的缩放定律，我们发现缩放定律可以有两个阶段：在第一阶段中，泛化误差多项式依赖于数据维度并迅速减小；而在第二阶段中，误差指数级依赖于数据维度并减小较慢，这凸显了数据分布在决定泛化误差中的复杂性。当数据分布良好时，我们的研究表明最近邻分类器可以在数据维度上多项式依赖，而非指数依赖，从而实现泛化误差的降低。

Aug, 2023

神经缩放定律解释

该研究提出了一种理论，解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系，并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。

Feb, 2021