Nov, 2018

关于非凸过参数化学习中 SGD 的指数收敛

TL;DR该文研究了使用随机梯度下降方法学习的大型过度参数化模型的收敛速度,并证明了当损失函数为凸函数或满足 Polyak-Lojasiewicz 条件的广泛非凸函数类时,常数步长下 SGD 可以实现指数收敛。