$\mu$LO: 计算高效的元泛化学习优化器

May, 2024

$\mu$LO: 计算高效的元泛化学习优化器

$μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers

Benjamin Thérien, Charles-Étienne Joseph, Boris Knyazev, Edouard Oyallon, Irina Rish...

TL;DR通过使用最近提出的最大更新参数化理论 (Maximal Update Parametrization)，我们扩展了学习优化器的元训练问题，实现了从小型模型到大型模型的零 - shot 泛化 (optimizer hyperparameters 的泛化)。我们的评估结果表明，使用最大更新参数化元训练的学习优化器相较于使用标准参数化 (standard parametrization) 训练的优化器，在元泛化方面有显著的改进。尤其值得注意的是，当应用于大宽度模型时，我们最好的学习优化器，经过 103 个 GPU 小时的训练，能够达到或超过 VeLO (最大的公开可用的学习优化器) 在 4000 个 TPU 月的计算中的性能。此外，相较于标准参数化优化器，我们的学习优化器在更深的网络和超过元训练过程 25 倍长的训练周期中表现出更好的泛化能力。

Abstract

learned optimizers (LOs) can significantly reduce the wall-clock training time of neural networks, substantially reducing training costs. However, they often suffer from poor meta-generalization, especially when

learned optimizers meta-generalization maximal update parametrization zero-shot generalization meta-training

发现论文，激发创造

VeLO：通过扩展规模训练多功能学习优化器

通过与深度学习相同的扩展方法，我们训练一种自适应的深度学习优化器。这个优化器是一个小型神经网络，可摄取梯度并输出参数更新，经过数千个 TPU 月的计算，不需要超参数调整，可以自适应问题进行优化。

Nov, 2022

可扩展且泛化的学习优化器

通过引入层次循环神经网络优化算法和基于元学习的小任务集，实现了一个新的学习梯度下降优化器，解决了在更大的问题上扩展能力不足和泛化能力受限问题，并在 ImageNet 数据集上通过数千步为 Inception V3 和 ResNet V2 架构进行了优化。

Mar, 2017

无需重新搜索的研究：最大更新参数化在各个尺度上实现准确的损失预测

本研究提出了一种新的解决大规模语言模型研究验证成本高的问题的范式，通过发现 Maximal Update parametrization（muP）可以使超参数的缩放定律精确拟合，并允许在训练开始之前使用损失预测直接比较不同模型。

Apr, 2023

大规模 $μ$ 转让的探索

大型神经网络模型的初始化和学习速率通常基于启发式方法，本研究通过对普遍存在的 Transformer 架构进行实证研究，探究 µP（µ-Parameterization）是否在实践中能够提供最佳的学习速率，并发现在大多数重要情况下 µ-Transfer 均可正常工作，但也存在一些令人惊讶的情况。

Apr, 2024

学习优化器的扩展是否值得？评估 VeLO 的价值 4000 TPU 月

通过分析 VeLO（通用学习优化器）的训练效果，我们发现其具有关键的超参数调整问题，不一定能比其他竞争对手更好地找到解决方案，并且在降低训练损失方面也不一定比其他优化器更快。这些观察结果对 VeLO 的广泛应用和培训投资的价值提出了质疑。

Oct, 2023

多目标树结构 Parzen 估计器遇见元学习

本文介绍了一种新的算法，通过任务相似性来加速多目标超参数优化 (MO-TPE)。研究表明该算法可在表格 HPO 基准测试中加速 MO-TPE, 同时获得了 AutoML 2022 比赛的第一名。

Dec, 2022

通过损失函数优化提高训练速度、精度和数据利用率

使用遗传编程算法，通过优化损失函数进行元学习可自动优化神经网络的设计，进而提高网络性能，从而推进 AutoML 技术。

May, 2019

有限资源下的大型语言模型全参数微调

提出了一种名为 LOw-Memory Optimization（LOMO）的新优化器，该优化器将梯度计算和参数更新融合为一步，可以在单台机器上通过充分利用记忆方案使大型语言模型（LLMs）进行全参数微调的训练过程中降低内存使用，并成功地在一台装有 8 个 RTX 3090 的机器上对一个拥有 65B 参数的模型进行充分微调。

Jun, 2023

群体学习优化

本文提出了一种新的元优化器，该优化器能够在基于点和基于种群的优化算法算法空间中进行学习，提高了预测的准确性和优化能力，并在非凸测试函数和蛋白质对接应用中的实验结果表明，该元优化器优于现有竞争对手。

Nov, 2019

潜在嵌入优化的元学习

本文提出了一种称为 Latent Embedding Optimization (LEO) 的方法，通过学习基于数据的潜在生成表示和在低维潜在空间中进行梯度元学习，以解决基于梯度的元学习在高维参数空间中的实际困难。实验结果表明，LEO 在 miniImageNet 和 tieredImageNet 几个少样本学习任务上表现优异，并能够更有效地执行调整，同时也能捕捉数据中的不确定性。

Jul, 2018