The stochastic proximal gradient method is a powerful generalization of the widely used stochastic gradient descent (SGD) method and has found numerous applications in Machine Learning. However, it is notoriously known that this method fails to converge in non-convex settings where the
本文旨在解决现实应用中使用随机梯度下降法进行深度学习和凸优化时,普遍使用最后一次迭代作为最终解决方案,但唯独它的可用遗憾分析和恒定动量参数设置只保证平均解的最佳收敛问题,并且探究单独收敛分析问题,最终我们证明了:在约束凸问题中,使用Polyak's Heavy-ball方法,它只能通过移动平均策略更新步长,即可获得O(1/根号T)的最优收敛率,而不是普通SGD的O(log T / 根号T)的优化。同时,我们的新型分析方法不仅阐释了HB动量及其时间变化的作用,还给出了有价值的暗示,即动量参数应如何进行安排。同时,针对优化凸函数和训练深度网络的实证结果,验证了我们收敛分析的正确性,并证明了自适应HB方法的改进性能。