Apr, 2018

两层神经网络格势的均场视角

TL;DR本论文在研究多层神经网络的优化问题,发现随机梯度下降算法会收敛到一个全局最优点,且这一点具有很好的泛化能力。结果表明,适当的尺度下,随机梯度下降动态可以通过某个非线性偏微分方程捕捉,从而证明了 SGD 的收敛性。