May, 2024

$\mu$LO: 计算高效的元泛化学习优化器

TL;DR通过使用最近提出的最大更新参数化理论 (Maximal Update Parametrization),我们扩展了学习优化器的元训练问题,实现了从小型模型到大型模型的零 - shot 泛化 (optimizer hyperparameters 的泛化)。我们的评估结果表明,使用最大更新参数化元训练的学习优化器相较于使用标准参数化 (standard parametrization) 训练的优化器,在元泛化方面有显著的改进。尤其值得注意的是,当应用于大宽度模型时,我们最好的学习优化器,经过 103 个 GPU 小时的训练,能够达到或超过 VeLO (最大的公开可用的学习优化器) 在 4000 个 TPU 月的计算中的性能。此外,相较于标准参数化优化器,我们的学习优化器在更深的网络和超过元训练过程 25 倍长的训练周期中表现出更好的泛化能力。