统一动量的加权AdaGrad算法
通过随机降维的方式,提出了Ada-LR和RadaGrad两种有效的逼近全矩阵AdaGrad的算法,能够在减少计算 cost 的同时保证和全矩阵AdaGrad相似的性能,其中RadaGrad在卷积神经网络和循环神经网络的训练中能够实现更快的收敛速度。
Nov, 2016
通过研究广义AdaGrad步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现O(1/T)到O(1/根号T)的插值(带有对数项)。
May, 2018
本文研究一类自适应梯度基于动量的算法,这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为Adam类型,研究了一些充分条件,保证了这些方法在解决非凸优化问题时的收敛性,为训练深度神经网络提供了理论支持。另外,文中提出了一类(确定性)增量自适应梯度算法,收敛速度与Adam类型算法相同,可以应用于更广泛的机器学习和优化问题。
Aug, 2018
本文研究随机动量方法,包含随机梯度法(SG),随机重球方法(SHB)和随机Nesterov's加速梯度方法(SNAG)。我们提出了一个框架,统一了这三种方法,并通过一致稳定性方法推导了梯度范数的收敛速率和推导了非凸优化问题。同时,我们也分别分析了这三个方法的收敛率和泛化性能。研究结果表明,动量项可以提高学习模型的稳定性和泛化性能。
Aug, 2018
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum算法可高概率收敛于全局最优解。
Jul, 2020
本文旨在解决现实应用中使用随机梯度下降法进行深度学习和凸优化时,普遍使用最后一次迭代作为最终解决方案,但唯独它的可用遗憾分析和恒定动量参数设置只保证平均解的最佳收敛问题,并且探究单独收敛分析问题,最终我们证明了:在约束凸问题中,使用Polyak's Heavy-ball方法,它只能通过移动平均策略更新步长,即可获得O(1/根号T)的最优收敛率,而不是普通SGD的O(log T / 根号T)的优化。同时,我们的新型分析方法不仅阐释了HB动量及其时间变化的作用,还给出了有价值的暗示,即动量参数应如何进行安排。同时,针对优化凸函数和训练深度网络的实证结果,验证了我们收敛分析的正确性,并证明了自适应HB方法的改进性能。
Feb, 2021
此论文分析了AdaSAM在随机非凸环境下的收敛速度,证明了AdaSAM的收敛速度为O(1/√(bT)),具有线性加速性质,随机梯度步骤与自适应学习率和扰动梯度分别分解分析,证明了自适应学习率具有有限的范围,为SAM和自适应学习率与动量加速提供了非平凡的收敛率,实验表明AdaSAM可以获得比SGD,AMSGrad和SAM优化器更好的性能。
Mar, 2023
通过在每个时间点对更新进行指数分布随机标量缩放的方式,我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。
May, 2024
本研究解决了AdaGrad在非凸优化中渐近和非渐近收敛率理论分析不足的问题。通过引入来自概率理论的新停时技术,建立了AdaGrad在温和条件下的稳定性,并推导出几乎必然和均方的渐近收敛形式,展示了平均平方梯度的接近最优非渐近收敛率。这为未来其他自适应随机算法的研究提供了潜在的独立技术。
Sep, 2024