Jun, 2023

有效学习率的扩展:早期训练中批量归一化的风险

TL;DR本文研究了深度规范化 ReLU 网络的早期训练阶段,并通过研究有效学习率(LR)来解释梯度流的影响,发现使用大 LR 类似于对非线性 ODE 应用显式求解器,在第一步后导致底层出现过振荡和梯度消失,因此在深度,LR 和动量(可选)上需要进行精细调整,以保持总体平衡。