BriefGPT.xyz
Jan, 2019
深度神经网络中随机梯度噪声的尾指数分析
A Tail-Index Analysis of Stochastic Gradient Noise in Deep Neural Networks
HTML
PDF
Umut Simsekli, Levent Sagun, Mert Gurbuzbalaban
TL;DR
本文研究深度学习中随机梯度下降算法中的梯度噪声,认为它通常不服从高斯分布,而是服从重尾的α稳定分布。作者建议使用Lévy motion来描述梯度噪声驱动的随机微分方程,并验证了此假设在不同深度学习架构和数据集中的正确性。此研究为深度学习的最优化提供了新的视角和更多见解。
Abstract
The
gradient noise
(GN) in the
stochastic gradient descent
(SGD) algorithm is often considered to be Gaussian in the large data regime by assuming that the classical central limit theorem (CLT) kicks in. This ass
→