无替换的 SGD 缩小收敛差距
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将SGD迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个SGD迭代的次优性的程度随T的轮次按O(log(T)/ sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随T按O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
研究随机梯度下降法(SGD)在强凸目标函数上的收敛性,证明了ICML 2018和2019提出的降低步长的速率序列在每次迭代后的收敛速度与我们的下限相差不到32倍,为最优状态;该下限相较于现有工作大约高出了因子775×d,其中d是维度。
Oct, 2018
本文对随机梯度下降法(SGD)的收敛性进行了分析,提出了一种新的假设随机梯度较真实梯度的范数更小的分析方法,并在多个情境下证明了SGD的收敛性,拓展了当前一类可达到收敛性的学习率。
Nov, 2018
本文提出了一种新的随机梯度下降算法sgdwor来优化平滑凸函数,相较于使用独立且重复地采样的传统算法sgd,sgdwor算法采样不重复且能获得更快的收敛速度,本文给出了sgdwor算法在一般的平滑且强凸函数下的首个非渐进结果:k次通信传输后,sgdwor算法的收敛速度为O(1/k^2),并与sgd算法在小k下具有相同收敛率,同时对问题相关参数(如条件数)的依赖性更弱。
Mar, 2019
证明在L-平滑度条件下, 随机梯度下降的迭代收敛速度的数量级为O(LR2exp[-(mu/4L)T]+sigma2/muT),其中sigma2是随机噪声方差, 且收敛速度与最佳已知的GD和SGD迭代复杂度匹配.
Jul, 2019
本文研究了随机梯度下降(SGD)在优化非凸函数方面的应用,提出了一些收敛理论,说明了在满足结构性假设的非凸问题中,SGD能够收敛到全局最小值,分析过程基于一个期望残差条件,相比之前的假设更加宽松。
Jun, 2020
通过分析,本文展示了当总迭代次数足够大时,随机梯度下降法(SGD)的最终迭代中存在一个 ε-稳定点,这是一个比现有结果更强的结论,并且可以在 SGD 的最终迭代中度量 ε-稳定点的密度,同时对于目标函数和随机梯度的边界条件,我们恢复了经典的 O(1/√T) 渐进速率,此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说,并提出了一些有启发性的研究方向。
Oct, 2023
通过分析基于随机梯度下降(SGD)的隐式正则化效应,本文研究了SGD无替换的情况,并发现其与添加了一种新型正则化器时的最优化过程等价,导致其在损失函数空间中与注入噪声的GD和采样独立同分布的SGD有着明显不同的轨迹,并在某些视觉任务中鼓励损失函数海森矩阵的特征值谱中出现稀疏性。
Dec, 2023
本研究针对高维学习中随机梯度下降(SGD)及其加速变种的最优性问题进行探讨,填补了这一领域的研究空白。通过建立动量加速SGD的收敛上界,论文提出了在特定问题下SGD或ASGD能实现最小-最大最优收敛速率的具体条件。此外,研究结果揭示了SGD在学习“稠密”特征及易问题中的高效性,并表明动量能够在相对困难的学习问题上显著加速收敛速度。
Sep, 2024