Apr, 2016

随机动量方法在凸和非凸优化中的统一收敛分析

TL;DR该论文针对随机动量法在非凸优化领域中的收敛性分析不足,通过对两种随机动量法(随机重球法和随机版 Nesterov 加速梯度法)的基本收敛性分析,提出了一种统一框架,展示了它们与随机梯度法之间的相似性和差异性,并在深度学习的测试误差收敛行为中解释了连续变化现象。同时,对深度神经网络的优化实验结果表明,随机版 Nesterov 加速梯度法在训练误差收敛速度和测试误差收敛鲁棒性方面取得了很好的平衡。