本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将SGD迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个SGD迭代的次优性的程度随T的轮次按O(log(T)/ sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随T按O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
本篇论文研究了关于随机逼近问题的现有算法,提出了两种新型随机梯度算法,并在回归和逻辑分类两种经典的监督学习问题上进行了测试,得到了较好的优化效果。
Jun, 2013
本文提出了一种名为S2GD的新方法,为解决优化大量平滑凸损失函数的平均最小化问题,文章指出其期望工作量可以通过几个步骤推导得出。
Dec, 2013
本论文提出了一种优化方法,该方法融合了加速梯度下降、随机方差减少梯度的优点,适用于非强凸和强凸问题,并在效率和收敛速率上都有优异表现。
Jun, 2015
本文研究随机版归一化梯度下降算法,并证明了该算法在优化拥有拟凸和局部Lipschitz性质的函数时,能够保证收敛到全局最优解。与标准的随机梯度下降算法不同的是,该算法要求使用最小的小批量大小,以避免梯度爆炸等问题。
Jul, 2015
本文研究证明了随机梯度下降在非凸学习中,无需统一梯度有界性假设也能达到最优收敛率的情况,并在一定程度上对于一般非凸目标函数和梯度主导的目标函数实现了几乎必然收敛。特别地,在方差为零的情况下可以得到线性收敛。
Feb, 2019
研究了随机梯度下降(SGD)算法在最小化光滑、可能非凸函数梯度范数方面的迭代复杂度,结果表明,Ghadimi和Lan的上限不能得到改进,除非做出额外的假设,即使对于凸二次函数,也是如此;此外还表明,对于非凸函数,SGD最小化梯度的可行性需要根据所选择的最优性标准而定。
Oct, 2019
本篇论文使用类似于期望光滑性假设的新方法来研究随机梯度下降法在非凸优化中的收敛率,并在考虑多种采样策略和小批量大小的情况下,探讨有限和优化问题的影响。
Feb, 2020
本文提出了一种基于加速梯度下降的新随机逼近算法,该算法在非强凸情况下取得了最佳预测误差率,并在加速遗忘初始条件方面达到了最优效果,同时在算法的平均迭代次数和最终迭代次数上均提供了收敛结果,该算法还在无噪声环境下提供了一个匹配下界,展示了我们算法的最优性。
Mar, 2022
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法,包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。
Jul, 2023