Apr, 2023

BN 与 ReLU 之间的不协调导致梯度爆炸,但被激活之间的相关性所抵消

TL;DR讲述了基于批归一化和 ReLU 的深度神经网络存在于训练早期不稳定的情况,提出了更好的适应性学习率算法来替代现有的学习率缩放方法,该算法在大批量训练中表现优于现有方法。