随机Polyak步长和动量:收敛保证和实际性能
本文研究了几种被重量球动量丰富的随机优化算法,证明了它们的全局非渐进线性收敛速率,并在稀疏数据环境下提出了随机动量,证明了它对于带有动量的算法有更好的整体复杂度。
Dec, 2017
本论文通过证明存在简单的问题实例以及提出一种新的基于Nesterov的算法,来对现有的快速梯度方法在随机情况下的局限性以及不足进行研究。实验证明,该新算法比常见的方法更具优势。
Mar, 2018
本文研究随机动量方法,包含随机梯度法(SG),随机重球方法(SHB)和随机Nesterov's加速梯度方法(SNAG)。我们提出了一个框架,统一了这三种方法,并通过一致稳定性方法推导了梯度范数的收敛速率和推导了非凸优化问题。同时,我们也分别分析了这三个方法的收敛率和泛化性能。研究结果表明,动量项可以提高学习模型的稳定性和泛化性能。
Aug, 2018
本文介绍了一种新颖的随机Polyak步长方法,称为SPS,它可以有效地用于随机梯度下降,特别是在训练超参数化模型时表现良好,并且在不需要任何与问题相关的常数或额外计算开销的情况下收敛速度快,并且与其他优化方法相比表现出色。
Feb, 2020
本文研究了随机梯度下降法和随机重球法在一般随机逼近问题上的收敛速度和最后迭代时的表现,证明了加权平均的迭代数的 收敛率,以及在非超参数区域内使用随机线性搜索和随机Polyak步进时的收敛性,并证明了最后一个重球的迭代收敛于极小化器,最后在非凸设置中证明了关于SGD轨迹下最低梯度范数的相似速率结果。
Jun, 2020
本文旨在解决现实应用中使用随机梯度下降法进行深度学习和凸优化时,普遍使用最后一次迭代作为最终解决方案,但唯独它的可用遗憾分析和恒定动量参数设置只保证平均解的最佳收敛问题,并且探究单独收敛分析问题,最终我们证明了:在约束凸问题中,使用Polyak's Heavy-ball方法,它只能通过移动平均策略更新步长,即可获得O(1/根号T)的最优收敛率,而不是普通SGD的O(log T / 根号T)的优化。同时,我们的新型分析方法不仅阐释了HB动量及其时间变化的作用,还给出了有价值的暗示,即动量参数应如何进行安排。同时,针对优化凸函数和训练深度网络的实证结果,验证了我们收敛分析的正确性,并证明了自适应HB方法的改进性能。
Feb, 2021
扩展了Stochastic Gradient Descent with Polyak Step-size (SPS)方法,使用Hutchinson's方法、Adam和AdaGrad等预处理技术来提高其在糟糕缩放和/或病态数据集上的性能。
Oct, 2023
本文通过建立随机重球方法在二次目标函数和异性梯度噪声条件下的非渐近收敛界,证明了重球动量可以在 SGD 的偏差项上提供加速收敛,同时与随机方差项相比,仍然能够实现接近最优的收敛速度,从而在统计极小化速度的对数因素范围内整体收敛,该结果意味着带有重球动量的 SGD 在大批量设置中(例如分布式机器学习或联邦学习)中非常有用,其中更少的迭代次数可以显著减少通信轮数,进而加速实践计算。
Dec, 2023
我们在光滑、强凸的设置中分析了随机重球 (SHB) 动量的收敛性,证明了当小批量大小大于某个阈值时,SHB 可以获得加速收敛率。特别地,在具有条件数κ的强凸二次函数中,SHB 伴随标准步长和动量参数具有 O( exp(-T/√κ) + σ ) 收敛率,其中 T 是迭代次数,σ^2 是随机梯度的方差。为了确保收敛到最小值,我们提出了一种多阶段方法,得到了一种噪声自适应的 O( exp(-T/√κ) + σ/T ) 收敛率。对于一般的强凸函数,我们利用 SHB 的均值解释和指数步长证明了一种噪声自适应的 O( exp(-T/κ) + σ^2/T ) 最小值收敛率。最后,我们实证了所提出算法的有效性。
Jan, 2024
该论文研究了在采用小型或有界批量大小时,在非凸设置中具有重要意义的随机近端梯度法,证明了该方法在非凸复合优化问题中达到最优的收敛速度,并且严格分析了Polyak动量在复合优化设置中的方差缩减效应,同时证明了在近似解决近端步骤的情况下,该方法仍然收敛,并通过数值实验验证了我们的理论结果。
Mar, 2024