带动量的随机梯度方法收敛于非光滑非凸优化问题
本文研究随机算法优化非凸、非光滑的有限和问题。针对此问题,本文提出快速的随机算法,可获得常数迷你批量的收敛性。本文还使用这些算法的变种,证明了比批量近端梯度下降更快的收敛性,并在非凸、非光滑函数的一个子类中证明全局线性收敛率。
May, 2016
在非凸优化问题中,本文研究了加速近端梯度法(APGnc)以及基于其的随机方差减少(APGnc)算法,证明了其所生成的序列的极限点是目标函数的临界点,并通过KL函数的性质获得了线性和次线性的收敛速率。
May, 2017
本文研究了几种被重量球动量丰富的随机优化算法,证明了它们的全局非渐进线性收敛速率,并在稀疏数据环境下提出了随机动量,证明了它对于带有动量的算法有更好的整体复杂度。
Dec, 2017
本文提出了一种修剪随机梯度(子)梯度法(SGD)的收敛性研究,特别是对于具有快速增长次梯度的非光滑凸函数。研究表明,修剪对SGD的稳定性有益,并且修剪SGD算法在许多情况下具有有限的收敛速率。同时,我们还研究了带有动量的修剪方法的收敛性,并展示了新的Lyapunov分析证明了该方法在这类问题中具有最佳的收敛速率。数值结果验证了理论结果。
Feb, 2021
本文研究了非凸优化中动量随机梯度下降(MSGD)算法的连续性版本,并证明了在目标函数满足Lipschitz连续性和Polyak-Lojasiewicz不等式的条件下,MSGD算法的目标函数极限收敛指数级收敛,同时在给定摩擦参数的情况下,MSGD过程几乎必定收敛。
Feb, 2023
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法,包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。
Jul, 2023
该论文研究了在采用小型或有界批量大小时,在非凸设置中具有重要意义的随机近端梯度法,证明了该方法在非凸复合优化问题中达到最优的收敛速度,并且严格分析了Polyak动量在复合优化设置中的方差缩减效应,同时证明了在近似解决近端步骤的情况下,该方法仍然收敛,并通过数值实验验证了我们的理论结果。
Mar, 2024
本文提出了一种快速的随机拟牛顿方法,针对平滑性不均匀的情况,通过梯度剪切和方差减小,实现了最优的O(ε^(-3))样本复杂度,并通过简单的超参数调节实现了收敛加速,数值实验证明了该算法优于现有方法。
Mar, 2024
通过在每个时间点对更新进行指数分布随机标量缩放的方式,我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。
May, 2024
本研究解决了机器学习中优化问题的非光滑性问题,针对 convex $(L_0,L_1)$-光滑函数提出了新的收敛保证。研究通过改进梯度下降法的收敛速度,提出了一种新的加速方法,并扩展了结果到随机情况下,为自适应梯度下降法提供了新的收敛速率。
Sep, 2024