ICLRFeb, 2020

深度神经网络优化轨迹上的盈亏平衡点

TL;DR本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数,指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数,在超过 “盈亏平衡点” 之后,通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题,这对于神经网络的优化效果具有积极作用,研究这些影响对于泛化性能的影响是一个有前途的研究方向。