随机梯度噪声的非高斯性

Oct, 2019

Non-Gaussianity of Stochastic Gradient Noise

Abhishek Panigrahi, Raghav Somani, Navin Goyal, Praneeth Netrapalli

TL;DR本文研究了神经网络训练中随机梯度噪声向量的分布，发现对于批量大小为256或以上的数据集和架构选择，分布最好可以用高斯分布来描述，解释了随机梯度下降在神经网络训练中比梯度下降更具普适性的原因。

Abstract

What enables stochastic gradient descent (SGD) to achieve better generalization than Gradient Descent (GD) in neural network training? Thi