关于带有噪声的动量随机梯度下降法在机器学习中的收敛速率
本篇论文研究了关于随机逼近问题的现有算法,提出了两种新型随机梯度算法,并在回归和逻辑分类两种经典的监督学习问题上进行了测试,得到了较好的优化效果。
Jun, 2013
本文研究了几种被重量球动量丰富的随机优化算法,证明了它们的全局非渐进线性收敛速率,并在稀疏数据环境下提出了随机动量,证明了它对于带有动量的算法有更好的整体复杂度。
Dec, 2017
本文介绍了一种随机子梯度方法,该方法结合了动量项,能够在一类广泛意义下的非光滑、非凸和受约束的优化问题中建立一个特殊的李亚普诺夫函数,实现快速收敛。
Feb, 2020
本文提出了一种修剪随机梯度(子)梯度法(SGD)的收敛性研究,特别是对于具有快速增长次梯度的非光滑凸函数。研究表明,修剪对SGD的稳定性有益,并且修剪SGD算法在许多情况下具有有限的收敛速率。同时,我们还研究了带有动量的修剪方法的收敛性,并展示了新的Lyapunov分析证明了该方法在这类问题中具有最佳的收敛速率。数值结果验证了理论结果。
Feb, 2021
研究通过基于动量的两种近期机制,结合两者来得出新的梯度估计,设计基于SGD的算法和加速版本的算法,并展示这些新方法对学习率选择的鲁棒性以及在无噪音和有噪音情况下具有相同的最佳收敛速度。
Apr, 2023
在考虑非凸目标函数的随机梯度下降的情况下,我们扩展了Chatterjee(2022)的全局收敛结果。我们证明,如果我们初始化到一个局部区域,其中Lajasiewicz条件成立,那么在该局部区域内,具有正概率的随机梯度迭代会收敛到全局最小值,并且我们的证明的关键组成部分是确保SGD的整个轨迹以正概率留在局部区域内。为此,我们假设SGD噪声与目标函数成比例,称为机器学习噪声,并可在许多实际示例中实现。此外,我们提供了一个负面的论据,以表明使用类似于Robbins-Monro类型步长的有界噪声是不足以保持主要组成部分有效的。
Apr, 2023
本研究分析了随机梯度下降与动量法在强凸设置下的有限样本收敛速度,并证明了 Polyak-averaging 版本的 SGDM 估算器的渐近正态性以及其与平均 SGD 的渐近等价性。
May, 2023
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法,包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。
Jul, 2023
随机梯度下降(SGD)与动量在收敛性和泛化能力方面具有快速收敛和优秀的表现,但缺乏理论解释。本文证明了SGD与动量使目标函数平滑化,平滑程度由学习率、批量大小、动量因子、随机梯度的方差和梯度范数的上界决定。这一理论发现揭示了动量为何改善泛化性能,并对包括动量因子在内的超参数的作用提供了新的见解。我们还提出了一种利用SGD与动量平滑性质的隐性渐变优化算法,并提供了支持我们断言的实验结果。
Feb, 2024