Feb, 2018

一个替代观点:随机梯度下降在何时逃离局部极小值?

TL;DR本文研究证明随机梯度下降算法可以在一些非凸函数下工作,这说明了为什么SGD在神经网络中工作得非常好。