May, 2023

ReLU MLP 中 $μ$P 学习率的深度依赖性

TL;DR本研究考虑了具有均场权重初始化的宽度为 $n$ 且深度为 $L$ 的随机全连接 ReLU 神经网络,在此基础上研究了随着 $n$ 和 $L$ 的变化,最大更新学习率的依赖性以及其关于 $L$ 的尺度变化。结果表明,除了第一层和最后一层的权重以外,最大更新学习率与 $n$ 无关,但其与 $L$ 的尺度正比于 $L^{-3/2}$。