非凸学习的随机梯度下降算法(无需假设梯度有上限)

Feb, 2019

非凸学习的随机梯度下降算法(无需假设梯度有上限)

Stochastic Gradient Descent for Nonconvex Learning without Bounded Gradient Assumptions

Yunwen Lei, Ting Hu, Ke Tang

TL;DR本文研究证明了随机梯度下降在非凸学习中，无需统一梯度有界性假设也能达到最优收敛率的情况，并在一定程度上对于一般非凸目标函数和梯度主导的目标函数实现了几乎必然收敛。特别地，在方差为零的情况下可以得到线性收敛。

Abstract

stochastic gradient descent (SGD) is a popular and efficient method with wide applications in training deep neural nets and other nonconvex models. While the behavior of SGD is well understood in the convex learn

发现论文，激发创造

非光滑优化的随机梯度下降：收敛结果与最优平均方案

本文探讨了在没有光滑假设的情况下，以及通过运行平均方案将SGD迭代转换为具有最佳优化精度的解决方案的性能，并证明了对于凸非光滑目标函数，最后一个SGD迭代的次优性的程度随T的轮次按O（log（T）/ sqrt（T））缩放，对于非光滑强凸情况，次优性的程度随T按O（log（T）/ T）缩放。此外，本文提出了一种新的简单平均方案，并提供了一些实验说明。

Dec, 2012

SGD和Hogwild!：在无需有界梯度假设的情况下收敛

该研究论文讨论了随机梯度下降算法的收敛性分析，提出了一种在异步并行环境下使用降低学习率机制的算法，并证明了其收敛性。

Feb, 2018

非凸优化中具有概率保障的随机梯度下降泛化误差界

本文探讨了深度学习模型的一种优化方法——随机梯度下降在泛化能力上的稳定性，提出了一种基于梯度方差的稳定性指标，并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题，得到了一系列改进的泛化误差界。

Feb, 2018

带有偏置但一致的梯度估计的随机梯度下降

本研究针对带图等情景，探讨Stochastic gradient descent (SGD)中consitent estimator的效用及其相对于unbiased estimator的同等收敛性。实验证明，consistent estimator在strongly convex, convex, and nonconvex目标下均表现良好，这一研究有助于进一步提高SGD的效率并设计大规模图的高效训练算法。

Jul, 2018

随机梯度算法的新收敛性特点

本文对随机梯度下降法（SGD）的收敛性进行了分析，提出了一种新的假设随机梯度较真实梯度的范数更小的分析方法，并在多个情境下证明了SGD的收敛性，拓展了当前一类可达到收敛性的学习率。

Nov, 2018

通过星型凸路径，SGD在深度学习中收敛到全局最小值

本研究证明了随机梯度下降法 (SGD)可训练深度神经网络，甚至可以收敛于全局最小值。这一结果得益于多个实验验证了SGD可以遵循恒星凸轨迹和训练损失近似于零值等性质，并以新方式揭示了SGD以确定性方式收敛于全局最小值。

Jan, 2019

非凸世界中SGD的更好理论

本篇论文使用类似于期望光滑性假设的新方法来研究随机梯度下降法在非凸优化中的收敛率，并在考虑多种采样策略和小批量大小的情况下，探讨有限和优化问题的影响。

Feb, 2020

结构化非凸函数的 SGD：学习率、小批量和插值

本文研究了随机梯度下降（SGD）在优化非凸函数方面的应用，提出了一些收敛理论，说明了在满足结构性假设的非凸问题中，SGD能够收敛到全局最小值，分析过程基于一个期望残差条件，相比之前的假设更加宽松。

Jun, 2020

非光滑非凸优化中随机次梯度方法的收敛性保证

本研究论文探讨了随机梯度下降（SGD）方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质，提出了一种新的框架，分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下，我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法，包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外，当目标函数采用有限和形式时，我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地，在温和的假设条件下，我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。

Jul, 2023

解密SGD非凸收敛的神话与传说

通过分析，本文展示了当总迭代次数足够大时，随机梯度下降法（SGD）的最终迭代中存在一个 ε-稳定点，这是一个比现有结果更强的结论，并且可以在 SGD 的最终迭代中度量 ε-稳定点的密度，同时对于目标函数和随机梯度的边界条件，我们恢复了经典的 O(1/√T) 渐进速率，此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说，并提出了一些有启发性的研究方向。

Oct, 2023