4+3 计算优化神经缩放定律的阶段

May, 2024

4+3 Phases of Compute-Optimal Neural Scaling Laws

Elliot Paquette, Courtney Paquette, Lechao Xiao, Jeffrey Pennington

TL;DR我们考虑了 Maloney、Roberts 和 Sully 提出的三参数可解神经缩放模型。该模型包括数据复杂性、目标复杂性和模型参数数目三个参数。我们使用这个神经缩放模型来推导关于计算受限、无限数据缩放规律的新预测。我们对神经缩放模型进行一次随机梯度下降训练，并推导出适用于所有迭代次数的损失曲线表示，随着模型参数数目的增加，该表示在准确性上有所提升。我们然后分析计算最优的模型参数数目，并在数据复杂性 / 目标复杂性相位平面上确定了 4 个相位（+3 个子相位）。这些相位的相界由模型容量、优化器噪声和特征的嵌入的相对重要性决定。此外，我们通过数学证明和大量数值证据，求得了所有这些相位的缩放规律指数，尤其是最优模型参数数目作为浮点操作预算的函数。

Abstract

We consider the three parameter solvable neural scaling model introduced by Maloney, Roberts, and Sully. The model has three parameters: data complexity, →

neural scaling model data complexity target complexity model-parameter-count compute-limited scaling law

发现论文，激发创造

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

大 N 场论中的神经比例定律：超越无岭极限的可解模型

基于大 N 场论方法，我们解决了一个由 Maloney，Roberts 和 Sully 提出的模型，该模型为研究神经网络的缩放定律提供了一个简化的环境。我们的解决方案将这个模型的结果推广到了一般非零的岭参数值，这对于规范模型的行为是至关重要的。除了获得新的和更精确的缩放定律，我们还揭示了在图表级别上的对偶变换，该变换解释了模型和训练数据集大小之间的对称性。相同的对偶变换也支持最近设计神经网络来模拟量子场论的努力。

May, 2024

神经缩放定律解释

该研究提出了一种理论，解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系，并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。

Feb, 2021

线性回归中的缩放定律：计算、参数和数据

大规模深度学习模型的实证研究表明，随着模型大小和数据规模的增加，训练模型的测试误差呈多项式改进；然而，神经缩放定律的一般形式预测增加模型大小会单调改善性能，这与传统的认知不同，即测试误差包含逼近、偏差和方差误差，并且方差错误随模型大小增加而增加。本研究在无限维线性回归设置下研究了缩放规律的理论；假设最优参数符合高斯先验，数据协方差矩阵具有幂律谱指数为 a>1，我们证明了测试误差的可还原部分为 Θ(M^{-(a-1)} + N^{-(a-1)/a})；方差错误随 M 的增加而增加，但由于随机梯度下降的隐式正则化作用，被其他误差所主导从而在界限中消失。我们的理论与实证神经缩放定律一致，并经过数值模拟验证。

Jun, 2024

神经网络规模定律的信息论基础

通过建立信息论基础，我们研究了神经缩放定律，并揭示了在无限宽度的两层神经网络生成的数据中，数据和模型大小的最佳关系大致呈线性，进一步验证了大规模的实证研究结果。

Jun, 2024

一种可精确求解的涌现与缩放规律模型

深度学习模型的发展速度、数据量和模型规模的增加会导致其展示出解决新问题的突然能力，这被称为发生现象。本文提出了一个基于技能的框架，其中每一项新能力都被表示为基函数。我们在这个技能基上解决了一个简单的多线性模型，并得到了与培训时间、数据量、模型规模和最佳计算（C）有关的新能力的出现以及丢失的尺度规律的解析表达式。我们将详细的计算结果与在多任务稀疏奇偶性训练数据上训练的两层神经网络的直接模拟进行了比较，其中数据集的任务分布符合幂律分布。我们的简单模型使用了单一的拟合参数，能够捕捉到神经网络中随着训练时间、数据量或模型规模增加而出现的多个新技能的 S 型发生现象。

Apr, 2024

揭开缩放法则之迷：第一部分

本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效，但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素，并提供透明的逐步指导，通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式，我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力，包括 (1) 最小可能测试损失；(2) 实现特定损失所需的最小训练步骤和处理的标记数；(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小；以及 (4) 完整的测试损失轨迹和任意批大小。

Mar, 2024

解决语言模型计算最优扩展的差异

Kaplan 等人和 Hoffmann 等人为计算预算的优化模型大小开发了有影响力的扩展定律，但这些定律给出了截然不同的预测结果；通过在两个数据集上重现 Kaplan 定律，并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素，我们解释了差异；在纠正这些因素后，我们与 Hoffmann 等人（即 “Chinchilla”）的定律取得了很好的一致性；与 Hoffmann 等人的假设相反，我们发现仔细的学习率衰减对于他们的定律的有效性并不重要；作为次要结果，我们推导出了最优学习率和批次大小的扩展定律，并发现在较低的批次大小下调整 AdamW 的 β2 参数至关重要。

Jun, 2024

显微镜下的比例定律：从小尺度实验预测变形器的性能

本文通过对自然语言处理任务的实证研究，发现神经比例定律不仅仅用于模型性能的预测，还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。

Feb, 2022