增强随机梯度下降:更快收敛的统一框架和新的加速方法
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的 SGD 类型方法,包括 heavy-ball SGD、SignSGD、Lion、normalized SGD 和 clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些 SGD 类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些 SGD 类型方法以随机选择的步长和初始点找到了目标函数的 Clarke 稳定点。初步的数值实验表明了我们分析的 SGD 类型方法的高效性。
Jul, 2023
研究了 Nesterov 加速梯度方法在随机逼近和有限和设置下的表现,发现使用通常的步长和动量参数,该方法在后者可能发散,进而阐明了这种方法在此情况下可能失败的原因。
Feb, 2020
本文提出了一种基于加速梯度下降的新随机逼近算法,该算法在非强凸情况下取得了最佳预测误差率,并在加速遗忘初始条件方面达到了最优效果,同时在算法的平均迭代次数和最终迭代次数上均提供了收敛结果,该算法还在无噪声环境下提供了一个匹配下界,展示了我们算法的最优性。
Mar, 2022
本文研究加速随机梯度方法在最小二乘回归问题中的应用,通过对加速随机梯度下降作为随机过程的深入分析,证明了引入加速能够使其对统计误差具有鲁棒性,并提出了一种优于随机梯度下降的加速随机梯度方法。
Apr, 2017
我们在插值条件下证明了随机 Nesterov 加速的新的收敛速度。不同于以往的分析,我们的方法可以加速任何在期望中取得足够进展的随机梯度方法。证明使用估计序列框架进行,适用于凸函数和强凸函数,并且可以轻松推广到满足强生长条件的加速 SGD。在这种特殊情况下,我们的分析将强生长常数的依赖性从 ρ 减小到√ρ,相对于以前的工作来说,这一改进相当于最坏情况下条件数的平方根,并解决了对于随机加速的保证可能不如 SGD 的批评。
Apr, 2024
通过研究表明,在现代机器学习中,采用具有极高表现力的模型进行训练,可以实现完全拟合或内插数据,从而得到零训练损失。我们证明,采用恒定步长随机梯度下降法(SGD)与 Nesterov 加速法具有相同的收敛速度,适用于凸和强凸函数。同时,我们发现,SGD 可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后,我们通过对合成和真实数据集的实验验证了我们的理论发现。
Oct, 2018
该论文将 Nesterov 的加速梯度方法推广到非凸和可能的随机优化问题中,证明该方法可以最优地解决一般的非凸光滑优化问题,并可应用于重要类的复合优化问题和非凸随机优化问题,是文献中第一次确立了 AG 方法解决非凸非线性规划的收敛性。
Oct, 2013
本文介绍了在目标函数为凸或强凸函数时获取加速一阶随机优化算法的各种机制,同时扩展了最初用于确定性目标的 Catalyst 方法到随机问题领域,并提供了一个新的关于处理不精确近端算子时的鲁棒性的泛化分析
Jun, 2019
本文提出了一种具有 Nesterov 加速梯度的随机(在线)拟牛顿方法,用于解决神经网络中的大规模非凸优化问题,结果表明其性能优于传统的二阶 oBFGS 和 oLBFGS 方法以及常用的一阶随机梯度方法,还在不同的动量率和批处理大小下进行了说明。
Sep, 2019
本文提出了一个通用的分级优化框架,用于求解一类广泛的非平滑非凸问题,采用随机凸优化算法,如准随机梯度下降和 AdaGrad 以及分级降低步长方式,并返回平均解决方案。作者的理论结果表明分级 AdaGrad 的自适应性,从而揭示其对于稀疏随机梯度问题比分级 SGD 更快收敛的见解,并在经验研究中提高了现有 SGD 和 AdaGrad 实现的泛化性能。
Aug, 2018