Feb, 2024

为何学习率能够传递?调和深度学习的优化与扩展限制

TL;DR最近的研究表明,神经网络的宽度和深度对于所谓的丰富特征学习极限(μP 及其深层延伸)的缩放存在转移学习现象,从而降低了超参数调整的成本。本研究通过实证找到了学习率转移的实验证据,并得出结论,在 μP 及其深层延伸下,训练损失 Hessian(即锋度)的最大特征值与网络的宽度和深度在持续训练时间内基本上是独立的。