无需重新搜索的研究：最大更新参数化在各个尺度上实现准确的损失预测

Apr, 2023

无需重新搜索的研究：最大更新参数化在各个尺度上实现准确的损失预测

Research without Re-search: Maximal Update Parametrization Yields Accurate Loss Prediction across Scales

Yiqun Yao, Yequan Wang

TL;DR本研究提出了一种新的解决大规模语言模型研究验证成本高的问题的范式，通过发现 Maximal Update parametrization（muP）可以使超参数的缩放定律精确拟合，并允许在训练开始之前使用损失预测直接比较不同模型。

Abstract

As language models scale up, it becomes increasingly expensive to verify research ideas because conclusions on small models do not trivially transfer to large ones. A possible solution is to establish a generic system that directly predicts some metrics for large models solely based on

language models scaling laws hyperparameter search maximal update parametrization academic research

发现论文，激发创造

大规模 $μ$ 转让的探索

大型神经网络模型的初始化和学习速率通常基于启发式方法，本研究通过对普遍存在的 Transformer 架构进行实证研究，探究 µP（µ-Parameterization）是否在实践中能够提供最佳的学习速率，并发现在大多数重要情况下 µ-Transfer 均可正常工作，但也存在一些令人惊讶的情况。

Apr, 2024

重新审视语言和视觉中的神经缩放定律

本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Sep, 2022

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

揭开缩放法则之迷：第一部分

本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效，但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素，并提供透明的逐步指导，通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式，我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力，包括 (1) 最小可能测试损失；(2) 实现特定损失所需的最小训练步骤和处理的标记数；(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小；以及 (4) 完整的测试损失轨迹和任意批大小。

Mar, 2024

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

$\mu$LO: 计算高效的元泛化学习优化器

通过使用最近提出的最大更新参数化理论 (Maximal Update Parametrization)，我们扩展了学习优化器的元训练问题，实现了从小型模型到大型模型的零 - shot 泛化 (optimizer hyperparameters 的泛化)。我们的评估结果表明，使用最大更新参数化元训练的学习优化器相较于使用标准参数化 (standard parametrization) 训练的优化器，在元泛化方面有显著的改进。尤其值得注意的是，当应用于大宽度模型时，我们最好的学习优化器，经过 103 个 GPU 小时的训练，能够达到或超过 VeLO (最大的公开可用的学习优化器) 在 4000 个 TPU 月的计算中的性能。此外，相较于标准参数化优化器，我们的学习优化器在更深的网络和超过元训练过程 25 倍长的训练周期中表现出更好的泛化能力。

May, 2024

声学模型的缩放率

本文研究机器学习中的自回归生成模型和声学模型，探讨其性能和规模之间的比例关系，通过预测各项损失量，建立规模预测和性能选择间的联系，提出了几个调整性能的超参数的方案

Jun, 2021

Tensor Programs V: 通过零样本超参数迁移调整大型神经网络

研究了利用最大更新参数化（muP）在模型大小变化时保持多种最优超参数稳定的 HP 调整方法 muTransfer，在 Transformer 和 ResNet 上进行了验证，并且可以实现零调整迁移，这可以将来自小模型的超参数零次传输到完整模型中，成本非常低，具有重要的经济和实际意义。

Mar, 2022

显微镜下的比例定律：从小尺度实验预测变形器的性能

本文通过对自然语言处理任务的实证研究，发现神经比例定律不仅仅用于模型性能的预测，还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。

Feb, 2022

解决语言模型计算最优扩展的差异

Kaplan 等人和 Hoffmann 等人为计算预算的优化模型大小开发了有影响力的扩展定律，但这些定律给出了截然不同的预测结果；通过在两个数据集上重现 Kaplan 定律，并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素，我们解释了差异；在纠正这些因素后，我们与 Hoffmann 等人（即 “Chinchilla”）的定律取得了很好的一致性；与 Hoffmann 等人的假设相反，我们发现仔细的学习率衰减对于他们的定律的有效性并不重要；作为次要结果，我们推导出了最优学习率和批次大小的扩展定律，并发现在较低的批次大小下调整 AdamW 的 β2 参数至关重要。

Jun, 2024