大规模 $μ$ 转让的探索
研究了利用最大更新参数化(muP)在模型大小变化时保持多种最优超参数稳定的 HP 调整方法 muTransfer,在 Transformer 和 ResNet 上进行了验证,并且可以实现零调整迁移,这可以将来自小模型的超参数零次传输到完整模型中,成本非常低,具有重要的经济和实际意义。
Mar, 2022
本研究提出了一种新的解决大规模语言模型研究验证成本高的问题的范式,通过发现 Maximal Update parametrization(muP)可以使超参数的缩放定律精确拟合,并允许在训练开始之前使用损失预测直接比较不同模型。
Apr, 2023
最近的研究表明,神经网络的宽度和深度对于所谓的丰富特征学习极限(μP 及其深层延伸)的缩放存在转移学习现象,从而降低了超参数调整的成本。本研究通过实证找到了学习率转移的实验证据,并得出结论,在 μP 及其深层延伸下,训练损失 Hessian(即锋度)的最大特征值与网络的宽度和深度在持续训练时间内基本上是独立的。
Feb, 2024
通过使用最近提出的最大更新参数化理论 (Maximal Update Parametrization),我们扩展了学习优化器的元训练问题,实现了从小型模型到大型模型的零 - shot 泛化 (optimizer hyperparameters 的泛化)。我们的评估结果表明,使用最大更新参数化元训练的学习优化器相较于使用标准参数化 (standard parametrization) 训练的优化器,在元泛化方面有显著的改进。尤其值得注意的是,当应用于大宽度模型时,我们最好的学习优化器,经过 103 个 GPU 小时的训练,能够达到或超过 VeLO (最大的公开可用的学习优化器) 在 4000 个 TPU 月的计算中的性能。此外,相较于标准参数化优化器,我们的学习优化器在更深的网络和超过元训练过程 25 倍长的训练周期中表现出更好的泛化能力。
May, 2024
现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导,解释了以下事实:为了有效地训练宽网络,在选择学习率和初始权重大小等超参数上只有一个自由度。这个自由度控制训练行为的丰富性:宽网络至少以类似核机器的方式进行懒惰训练,最多则在所谓的 μP 区域表现出特征学习。本文解释了这种丰富性尺度,将最近的研究结果综合为一个连贯的整体,并提供支持我们的论点的实证证据。通过这样做,我们希望进一步研究丰富性尺度,因为它可能是发展实际深度神经网络特征学习的科学理论的关键。
Apr, 2024
本研究考虑了具有均场权重初始化的宽度为 $n$ 且深度为 $L$ 的随机全连接 ReLU 神经网络,在此基础上研究了随着 $n$ 和 $L$ 的变化,最大更新学习率的依赖性以及其关于 $L$ 的尺度变化。结果表明,除了第一层和最后一层的权重以外,最大更新学习率与 $n$ 无关,但其与 $L$ 的尺度正比于 $L^{-3/2}$。
May, 2023
UL2R method improves scaling properties of language models with minimal extra compute, demonstrating emergent abilities on challenging BIG-Bench NLP tasks, and outperforming PaLM on many few-shot setups.
Oct, 2022
本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法,将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改,定义了一组设计维度以表明不同方法的变化方向,如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究,识别了以前方法中的重要设计选择。此外,我们的统一框架使得设计元素可以在不同方法之间进行转移,从而实现了比以前更高效的 fine-tuning 方法。
Oct, 2021