非凸学习的随机梯度下降算法(无需假设梯度有上限)
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将SGD迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个SGD迭代的次优性的程度随T的轮次按O(log(T)/ sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随T按O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
本文探讨了深度学习模型的一种优化方法——随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
本研究针对带图等情景,探讨Stochastic gradient descent (SGD)中consitent estimator的效用及其相对于unbiased estimator的同等收敛性。实验证明,consistent estimator在strongly convex, convex, and nonconvex目标下均表现良好,这一研究有助于进一步提高SGD的效率并设计大规模图的高效训练算法。
Jul, 2018
本文对随机梯度下降法(SGD)的收敛性进行了分析,提出了一种新的假设随机梯度较真实梯度的范数更小的分析方法,并在多个情境下证明了SGD的收敛性,拓展了当前一类可达到收敛性的学习率。
Nov, 2018
本研究证明了随机梯度下降法 (SGD)可训练深度神经网络,甚至可以收敛于全局最小值。这一结果得益于多个实验验证了SGD可以遵循恒星凸轨迹和训练损失近似于零值等性质,并以新方式揭示了SGD以确定性方式收敛于全局最小值。
Jan, 2019
本文研究了随机梯度下降(SGD)在优化非凸函数方面的应用,提出了一些收敛理论,说明了在满足结构性假设的非凸问题中,SGD能够收敛到全局最小值,分析过程基于一个期望残差条件,相比之前的假设更加宽松。
Jun, 2020
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法,包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。
Jul, 2023
通过分析,本文展示了当总迭代次数足够大时,随机梯度下降法(SGD)的最终迭代中存在一个 ε-稳定点,这是一个比现有结果更强的结论,并且可以在 SGD 的最终迭代中度量 ε-稳定点的密度,同时对于目标函数和随机梯度的边界条件,我们恢复了经典的 O(1/√T) 渐进速率,此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说,并提出了一些有启发性的研究方向。
Oct, 2023