Oct, 2019

随机梯度噪声的非高斯性

TL;DR本文研究了神经网络训练中随机梯度噪声向量的分布,发现对于批量大小为 256 或以上的数据集和架构选择,分布最好可以用高斯分布来描述,解释了随机梯度下降在神经网络训练中比梯度下降更具普适性的原因。