Jun, 2023
有效学习率的扩展:早期训练中批量归一化的风险
Spreads in Effective Learning Rates: The Perils of Batch Normalization
During Early Training
TL;DR 本文研究了深度规范化ReLU网络的早期训练阶段,并通过研究有效学习率(LR)来解释梯度流的影响,发现使用大LR类似于对非线性ODE应用显式求解器,在第一步后导致底层出现过振荡和梯度消失,因此在深度,LR和动量(可选)上需要进行精细调整,以保持总体平衡。