非凸优化中动量 SGD 的扩散近似理论
本研究从扰动动力学系统的角度研究了SGD优化算法在非凸优化问题中的应用,发现扰动过程可以弱化地近似SGD算法,并且批量大小对于深度神经网络具有明显影响,小批量有助于SGD算法避免不稳定驻点和锐利极小值,并且我们的理论表明,为了更好的泛化能力,应在后期增加批量大小以使SGD陷入平坦的极小值点。
May, 2017
本文提出一种基于变量规约的Proximal 随机梯度下降算法(ProxSVRG+), 该算法在非凸性和非光滑性优化问题上具有更好的性能, 并在收敛性分析方面比之前的算法更加全面和普适性更强。
Feb, 2018
本文将通过对随机梯度下降进行深入分析,证明当目标函数满足梯度Lipschitz、Hessian-Lipschitz和发散噪声假设时,SGD能够在O(ε^ -3.5)次随机梯度计算中逃离鞍点并找到(ε,O(ε^ 0.5))-近似二阶稳定点,从而推翻了SGD至少需要O(ε^ - 4)的经典信念。此类SGD速率与大多数采用其他技术的加速非凸随机优化算法的速率相匹配,如Nesterov的动量加速,负曲率搜索,以及二次和三次正则化技巧。本文的新型分析为非凸SGD提供了新的见解,并可潜在地推广到广泛的随机优化算法类。
Feb, 2019
我们分析了用于优化非凸问题的随机梯度算法及其中简单的 SSROD 算法,在此基础上证明了 SSROD 算法可以有效地寻找非凸问题中的局部最小值点,并给出了相关的复杂度分析。
Apr, 2019
本文介绍了一种随机子梯度方法,该方法结合了动量项,能够在一类广泛意义下的非光滑、非凸和受约束的优化问题中建立一个特殊的李亚普诺夫函数,实现快速收敛。
Feb, 2020
本研究探讨了随机动量梯度下降(stochastic momentum)算法在深度神经网络训练中的作用,提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明,$eta$应该接近1,这与实验结果一致。
Jun, 2021
本文研究了非凸优化中动量随机梯度下降(MSGD)算法的连续性版本,并证明了在目标函数满足Lipschitz连续性和Polyak-Lojasiewicz不等式的条件下,MSGD算法的目标函数极限收敛指数级收敛,同时在给定摩擦参数的情况下,MSGD过程几乎必定收敛。
Feb, 2023
研究一系列随机Bregman近端梯度法(SBPG)方法,用于训练具有非Lipschitz梯度的非凸目标函数,及应用于神经网络训练中具有多项式内核函数的深度神经网络的优化算法。证明了SBPG及其动量版本(MSBPG)在非凸优化问题中有很好的收敛性,提出了MSBPG解决大规模优化中随机梯度下降法的一些不足。
Jun, 2023
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法,包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。
Jul, 2023