BriefGPT.xyz
Oct, 2019
随机梯度噪声的非高斯性
Non-Gaussianity of Stochastic Gradient Noise
HTML
PDF
Abhishek Panigrahi, Raghav Somani, Navin Goyal, Praneeth Netrapalli
TL;DR
本文研究了神经网络训练中随机梯度噪声向量的分布,发现对于批量大小为256或以上的数据集和架构选择,分布最好可以用高斯分布来描述,解释了随机梯度下降在神经网络训练中比梯度下降更具普适性的原因。
Abstract
What enables
stochastic gradient descent
(SGD) to achieve better
generalization
than Gradient Descent (GD) in
neural network training
? Thi
→