大规模 $μ$ 转让的探索

Apr, 2024

A Large-Scale Exploration of $μ$-Transfer

Lucas Lingle

TL;DR大型神经网络模型的初始化和学习速率通常基于启发式方法，本研究通过对普遍存在的 Transformer 架构进行实证研究，探究 µP（µ-Parameterization）是否在实践中能够提供最佳的学习速率，并发现在大多数重要情况下 µ-Transfer 均可正常工作，但也存在一些令人惊讶的情况。

Abstract

Large neural network models have become a mainstay of natural language processing and computer vision, yet their initialization and learning rate

neural network models initialization learning rates µ-parameterization hyperparameter transfer

发现论文，激发创造

Tensor Programs V: 通过零样本超参数迁移调整大型神经网络

研究了利用最大更新参数化（muP）在模型大小变化时保持多种最优超参数稳定的 HP 调整方法 muTransfer，在 Transformer 和 ResNet 上进行了验证，并且可以实现零调整迁移，这可以将来自小模型的超参数零次传输到完整模型中，成本非常低，具有重要的经济和实际意义。

Mar, 2022

无需重新搜索的研究：最大更新参数化在各个尺度上实现准确的损失预测

本研究提出了一种新的解决大规模语言模型研究验证成本高的问题的范式，通过发现 Maximal Update parametrization（muP）可以使超参数的缩放定律精确拟合，并允许在训练开始之前使用损失预测直接比较不同模型。

Apr, 2023

为何学习率能够传递？调和深度学习的优化与扩展限制

最近的研究表明，神经网络的宽度和深度对于所谓的丰富特征学习极限（μP 及其深层延伸）的缩放存在转移学习现象，从而降低了超参数调整的成本。本研究通过实证找到了学习率转移的实验证据，并得出结论，在 μP 及其深层延伸下，训练损失 Hessian（即锋度）的最大特征值与网络的宽度和深度在持续训练时间内基本上是独立的。

Feb, 2024

残差网络中的深度超参数转移：动态和尺度限制

使用深度学习调参中的参数化方法，研究残差网络的超参数如何在不同宽度和深度的网络中传递，并证明实验和理论结果的一致性。

Sep, 2023

传递的尺度定律

研究表明，使用预训练模型进行迁移学习可以在未标注数据上改善性能，通过研究参数、数据和计算等方面，得到了一系列可预测的缩放规律。

Feb, 2021

$\mu$LO: 计算高效的元泛化学习优化器

通过使用最近提出的最大更新参数化理论 (Maximal Update Parametrization)，我们扩展了学习优化器的元训练问题，实现了从小型模型到大型模型的零 - shot 泛化 (optimizer hyperparameters 的泛化)。我们的评估结果表明，使用最大更新参数化元训练的学习优化器相较于使用标准参数化 (standard parametrization) 训练的优化器，在元泛化方面有显著的改进。尤其值得注意的是，当应用于大宽度模型时，我们最好的学习优化器，经过 103 个 GPU 小时的训练，能够达到或超过 VeLO (最大的公开可用的学习优化器) 在 4000 个 TPU 月的计算中的性能。此外，相较于标准参数化优化器，我们的学习优化器在更深的网络和超过元训练过程 25 倍长的训练周期中表现出更好的泛化能力。

May, 2024

懒人（NTK）和富人（μP）的领域：温和教程

现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导，解释了以下事实：为了有效地训练宽网络，在选择学习率和初始权重大小等超参数上只有一个自由度。这个自由度控制训练行为的丰富性：宽网络至少以类似核机器的方式进行懒惰训练，最多则在所谓的 μP 区域表现出特征学习。本文解释了这种丰富性尺度，将最近的研究结果综合为一个连贯的整体，并提供支持我们的论点的实证证据。通过这样做，我们希望进一步研究丰富性尺度，因为它可能是发展实际深度神经网络特征学习的科学理论的关键。

Apr, 2024

ReLU MLP 中 $μ$P 学习率的深度依赖性

本研究考虑了具有均场权重初始化的宽度为 $n$ 且深度为 $L$ 的随机全连接 ReLU 神经网络，在此基础上研究了随着 $n$ 和 $L$ 的变化，最大更新学习率的依赖性以及其关于 $L$ 的尺度变化。结果表明，除了第一层和最后一层的权重以外，最大更新学习率与 $n$ 无关，但其与 $L$ 的尺度正比于 $L^{-3/2}$。

May, 2023

以 0.1% 的额外计算能力超越比例定律

UL2R method improves scaling properties of language models with minimal extra compute, demonstrating emergent abilities on challenging BIG-Bench NLP tasks, and outperforming PaLM on many few-shot setups.

Oct, 2022

面向参数高效的迁移学习统一视角

本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Oct, 2021