为何学习率能够传递？调和深度学习的优化与扩展限制

Feb, 2024

为何学习率能够传递？调和深度学习的优化与扩展限制

Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning

Lorenzo Noci, Alexandru Meterez, Thomas Hofmann, Antonio Orvieto

TL;DR最近的研究表明，神经网络的宽度和深度对于所谓的丰富特征学习极限（μP 及其深层延伸）的缩放存在转移学习现象，从而降低了超参数调整的成本。本研究通过实证找到了学习率转移的实验证据，并得出结论，在 μP 及其深层延伸下，训练损失 Hessian（即锋度）的最大特征值与网络的宽度和深度在持续训练时间内基本上是独立的。

Abstract

Recently, there has been growing evidence that if the width and depth of a neural network are scaled toward the so-called rich feature learning limit ($\mu$P and its depth extension), then some hyperparameters - such as the learning rate - exhibit transfer from small to very large models, thus reducing the cost of →

neural networks hyperparameter tuning learning rate transfer eigenvalue sharpness dynamics

发现论文，激发创造

大规模 $μ$ 转让的探索

大型神经网络模型的初始化和学习速率通常基于启发式方法，本研究通过对普遍存在的 Transformer 架构进行实证研究，探究 µP（µ-Parameterization）是否在实践中能够提供最佳的学习速率，并发现在大多数重要情况下 µ-Transfer 均可正常工作，但也存在一些令人惊讶的情况。

Apr, 2024

懒人（NTK）和富人（μP）的领域：温和教程

现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导，解释了以下事实：为了有效地训练宽网络，在选择学习率和初始权重大小等超参数上只有一个自由度。这个自由度控制训练行为的丰富性：宽网络至少以类似核机器的方式进行懒惰训练，最多则在所谓的 μP 区域表现出特征学习。本文解释了这种丰富性尺度，将最近的研究结果综合为一个连贯的整体，并提供支持我们的论点的实证证据。通过这样做，我们希望进一步研究丰富性尺度，因为它可能是发展实际深度神经网络特征学习的科学理论的关键。

Apr, 2024

深度学习与核学习：损失函数梯度与神经切向核的时间演变的实证研究

在深度神经网络训练中，训练动力学与损失面的几何形态和时空变化紧密关联，揭示了深度学习过程中快速的混沌瞬变和稳定状态之间的显著关系。

Oct, 2020

深度神经网络中特征和懒惰训练的解耦

该论文针对深度学习的 Neural Tangent Kernel 极限和 Mean-Field 极限进行了研究，发现不同的调参可以使得网络在 lazy training 和 feature training 两种状态下表现不同，并提出了一种中间状态下集合平均方法可以提高性能。

Jun, 2019

残差网络中的深度超参数转移：动态和尺度限制

使用深度学习调参中的参数化方法，研究残差网络的超参数如何在不同宽度和深度的网络中传递，并证明实验和理论结果的一致性。

Sep, 2023

深度学习的大学习率阶段：弹射机制

本文研究了学习速率对深度神经网络性能的影响，提出了一种具有可解训练动态的神经网络类，并在实际深度学习环境中验证了其预测，发现小学习率相当于传统理论下的无穷宽神经网络，而大学习率相当于梯度下降动态收敛到更平坦的极小值点，模型中预测的大而稳定的学习率范围得到了验证，同时发现在大学习率下模型性能优越。

Mar, 2020

从宏观角度解密神经网络的懒惰训练

通过研究神经网络训练动态，探究权重参数在初始化过程中引入的各种因素之间的复杂相互作用，我们发现梯度下降可以快速将深层神经网络驱动至零训练误差，不论具体的初始化方案如何，只要输出函数的初始尺度超过一定阈值。这个区域被称为 theta-lazy 区域，突出了初始尺度在神经网络训练行为中的主导影响，同时我们还发现这个 theta-lazy 区域与神经切线核（NTK）范式有相似之处，但条件宽松。通过严格的分析，我们揭示了初始尺度 kappa 在神经网络训练动态中的关键作用。

Apr, 2024

传递的尺度定律

研究表明，使用预训练模型进行迁移学习可以在未标注数据上改善性能，通过研究参数、数据和计算等方面，得到了一系列可预测的缩放规律。

Feb, 2021

高维分析揭示保守的锐化和随机稳定边缘

在全批量情况下，训练损失 Hessian 的大特征值动态具有某些显著稳定的特征。在随机设置中，特征值的增长速度较慢，我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释，它在小批量的情况下与神经切线核的迹有关，而不是大的 Hessian 特征值。我们进行了实验研究，突出了与全批量现象的定性差异，并表明控制随机稳定边界可以帮助优化。

Apr, 2024

深度神经网络和神经切向等级的动态

本文研究了有限宽度的深度全连接神经网络中神经切向核的动态，并推导出一个无穷层次的普通微分方程组，它捕捉了深层神经网络的梯度下降动态。此外，在条件限制下，研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能，同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。

Sep, 2019