结构化非凸函数的 SGD:学习率、小批量和插值
该文研究了使用随机梯度下降方法学习的大型过度参数化模型的收敛速度,并证明了当损失函数为凸函数或满足Polyak-Lojasiewicz条件的广泛非凸函数类时,常数步长下 SGD 可以实现指数收敛。
Nov, 2018
提出SGD收敛的通用简单定理,该定理可描述与特定概率法相关的各种SGD变体的收敛性。该定理是第一次执行这种分析,大多数SGD的变体以前从未明确考虑过。论文依赖于最近引入的期望平滑性的概念,并不依赖于随机梯度方差的统一界限。
Jan, 2019
本文研究证明了随机梯度下降在非凸学习中,无需统一梯度有界性假设也能达到最优收敛率的情况,并在一定程度上对于一般非凸目标函数和梯度主导的目标函数实现了几乎必然收敛。特别地,在方差为零的情况下可以得到线性收敛。
Feb, 2019
本文提出了一种统一分析的变体的近端随机梯度下降法,包括了未进行方差缩减、重要性抽样、小批量抽样、量化、坐标子采样等方法,同时获得了近端随机梯度下降法和随机化坐标下降法、方差缩减和非方差缩减的统一理论,提出了五种新变体的近端随机梯度下降法,并通过数值实验证明了其性质。
May, 2019
研究了随机梯度下降(SGD)算法在最小化光滑、可能非凸函数梯度范数方面的迭代复杂度,结果表明,Ghadimi和Lan的上限不能得到改进,除非做出额外的假设,即使对于凸二次函数,也是如此;此外还表明,对于非凸函数,SGD最小化梯度的可行性需要根据所选择的最优性标准而定。
Oct, 2019
本文探讨了不带替换采样的随机梯度下降在模型训练中的应用,并对凸函数的 SGD 收敛速率进行了分析。我们证明,当函数是二次型时,SGD 不带替换采样的收敛速率为 O(1/T^2 + n^2/T^3),同时我们也提出了强凸函数收敛速率的新的下界。
Feb, 2020
本文提出了一个新的分析框架来研究mini-batch SGD对于具有常数学习率、动量和批次大小的线性模型的噪声平均属性,探讨了问题的谱分布对算法的影响,并验证了使用负动量可以实现最优收敛速率的理论预测。
Jun, 2022
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法,包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。
Jul, 2023
通过分析,本文展示了当总迭代次数足够大时,随机梯度下降法(SGD)的最终迭代中存在一个 ε-稳定点,这是一个比现有结果更强的结论,并且可以在 SGD 的最终迭代中度量 ε-稳定点的密度,同时对于目标函数和随机梯度的边界条件,我们恢复了经典的 O(1/√T) 渐进速率,此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说,并提出了一些有启发性的研究方向。
Oct, 2023