超越固定训练持续时间的尺度定律和计算优化训练

May, 2024

超越固定训练持续时间的尺度定律和计算优化训练

Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations

Alexander Hägele, Elie Bakouch, Atli Kosson, Loubna Ben Allal, Leandro Von Werra...

TL;DR通过研究模型的规模和训练行为，本研究提出了常数学习率和冷却方法作为替代余弦调度的更简单且可预测可靠的训练方法，并发现随机权重平均可以在不增加额外训练成本的情况下改善训练过程中的性能，从而减少计算和 GPU 时间，实现规模实验的效率提升。

Abstract

Scale has become a main ingredient in obtaining strong machine learning models. As a result, understanding a model's scaling properties is key to effectively designing both the right training setup as well as future generations of architectures. In this work, we argue that scale and tr

scaling properties training behavior constant learning rate stochastic weight averaging scaling experiments

发现论文，激发创造

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

揭开缩放法则之迷：第一部分

本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效，但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素，并提供透明的逐步指导，通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式，我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力，包括 (1) 最小可能测试损失；(2) 实现特定损失所需的最小训练步骤和处理的标记数；(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小；以及 (4) 完整的测试损失轨迹和任意批大小。

Mar, 2024

大型时间序列模型的尺度定律

基于大规模语言模型的缩放定律已经在如何训练规模更大的模型以获得可预测的性能提升上提供了有用的指导。该研究表明，基于解码器的时间序列变换模型也展示了与语言模型类似的缩放行为，对于广泛范围内的架构细节（纵横比和头数）几乎没有影响。我们汇集了大量的异构时间序列数据进行训练，并首次建立了参数数量、数据集大小和训练计算量与其之间的幂律缩放关系，涵盖了五个数量级。

May, 2024

解决语言模型计算最优扩展的差异

Kaplan 等人和 Hoffmann 等人为计算预算的优化模型大小开发了有影响力的扩展定律，但这些定律给出了截然不同的预测结果；通过在两个数据集上重现 Kaplan 定律，并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素，我们解释了差异；在纠正这些因素后，我们与 Hoffmann 等人（即 “Chinchilla”）的定律取得了很好的一致性；与 Hoffmann 等人的假设相反，我们发现仔细的学习率衰减对于他们的定律的有效性并不重要；作为次要结果，我们推导出了最优学习率和批次大小的扩展定律，并发现在较低的批次大小下调整 AdamW 的 β2 参数至关重要。

Jun, 2024

声学模型的缩放率

本文研究机器学习中的自回归生成模型和声学模型，探讨其性能和规模之间的比例关系，通过预测各项损失量，建立规模预测和性能选择间的联系，提出了几个调整性能的超参数的方案

Jun, 2021

深度学习的扩展是可预测的，实证的

本文采用实证方法针对机器翻译、语言建模、图像处理和语音识别等 4 个机器学习领域的数据，研究训练集大小、模型规模与推广误差之间的关系，结果表明推广误差遵循幂定律缩放，且模型改进只改变误差而不影响幂指数。此外，模型大小随数据规模的增大缩小，这些研究对于深度学习的研究、实践和系统设计具有重要意义。

Dec, 2017

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

Transformer 语言模型分阶段训练

本文提出了一种基于阶段训练和生长算子的语言模型训练方法，通过增加模型的深度和宽度以节省计算资源，并利用缩放定律和训练动态来优化训练阶段，实验结果显示与基于随机初始化的传统模型相比，该方法能够实现高达 22% 的计算资源节省。

Mar, 2022

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024