Jan, 2019

深度神经网络中随机梯度噪声的尾指数分析

TL;DR本文研究深度学习中随机梯度下降算法中的梯度噪声,认为它通常不服从高斯分布,而是服从重尾的α稳定分布。作者建议使用Lévy motion来描述梯度噪声驱动的随机微分方程,并验证了此假设在不同深度学习架构和数据集中的正确性。此研究为深度学习的最优化提供了新的视角和更多见解。