Mar, 2016

动量加速对在线学习的影响

TL;DR研究了动量随机梯度法在常数步长和慢适应区域的收敛速度和均方误差性能,结果表明动量方法相当于具有重新缩放(更大)步长值的标准随机梯度法,重新缩放的大小由动量参数的值确定。分析适用于一般的强凸和光滑风险函数,而不限于二次风险,发现动量构建在确定性优化问题中的优点并不一定适用于小常数步长的自适应在线设置中,以使根据持续的梯度噪声进行连续适应和学习。模拟结果表明,动量和标准随机梯度方法在非可微和非凸问题中也是等价的。