关于现有动量方案在随机优化中的不足
本文研究加速随机梯度方法在最小二乘回归问题中的应用,通过对加速随机梯度下降作为随机过程的深入分析,证明了引入加速能够使其对统计误差具有鲁棒性,并提出了一种优于随机梯度下降的加速随机梯度方法。
Apr, 2017
通过引入重加权AdaGrad联合动量,AdaUSM在解决难以收敛的随机问题时,其带权高斯平均符合实时梯度下降法 (SGD) 和AdaGrad的学习率下降速度,同时还能实现SGD动量和Nesterov学习率全方位的整合。
Aug, 2018
本文研究随机动量方法,包含随机梯度法(SG),随机重球方法(SHB)和随机Nesterov's加速梯度方法(SNAG)。我们提出了一个框架,统一了这三种方法,并通过一致稳定性方法推导了梯度范数的收敛速率和推导了非凸优化问题。同时,我们也分别分析了这三个方法的收敛率和泛化性能。研究结果表明,动量项可以提高学习模型的稳定性和泛化性能。
Aug, 2018
本文研究了随机梯度下降法和随机重球法在一般随机逼近问题上的收敛速度和最后迭代时的表现,证明了加权平均的迭代数的 收敛率,以及在非超参数区域内使用随机线性搜索和随机Polyak步进时的收敛性,并证明了最后一个重球的迭代收敛于极小化器,最后在非凸设置中证明了关于SGD轨迹下最低梯度范数的相似速率结果。
Jun, 2020
本文旨在解决现实应用中使用随机梯度下降法进行深度学习和凸优化时,普遍使用最后一次迭代作为最终解决方案,但唯独它的可用遗憾分析和恒定动量参数设置只保证平均解的最佳收敛问题,并且探究单独收敛分析问题,最终我们证明了:在约束凸问题中,使用Polyak's Heavy-ball方法,它只能通过移动平均策略更新步长,即可获得O(1/根号T)的最优收敛率,而不是普通SGD的O(log T / 根号T)的优化。同时,我们的新型分析方法不仅阐释了HB动量及其时间变化的作用,还给出了有价值的暗示,即动量参数应如何进行安排。同时,针对优化凸函数和训练深度网络的实证结果,验证了我们收敛分析的正确性,并证明了自适应HB方法的改进性能。
Feb, 2021
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法,包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。
Jul, 2023
我们比较了随机平均梯度 (SAG) 与一些经典机器学习优化算法,并提出了将 SAG 与动量算法和Adam相结合的方法,这些组合在优化函数时表现出更高的速度和更好的性能。
Jul, 2023
本文通过建立随机重球方法在二次目标函数和异性梯度噪声条件下的非渐近收敛界,证明了重球动量可以在 SGD 的偏差项上提供加速收敛,同时与随机方差项相比,仍然能够实现接近最优的收敛速度,从而在统计极小化速度的对数因素范围内整体收敛,该结果意味着带有重球动量的 SGD 在大批量设置中(例如分布式机器学习或联邦学习)中非常有用,其中更少的迭代次数可以显著减少通信轮数,进而加速实践计算。
Dec, 2023
基于SGD,本文提出了一种统一框架来解决随机优化中非凸条件下的收敛分析问题,并发现了两种插入加速方法:拒绝加速和随机向量加速,理论上证明这两种方法可以直接提高收敛速度。
Feb, 2024
在本文中,我们提出了一种基于随机梯度下降算法的新型多步骤选择方法来解决大规模随机优化问题,该方法不需要预先了解问题参数并且具有收敛性保证。
Jun, 2024