异步随机梯度下降的随机修正方程
通过连续时间随机微分方程,采用最优控制理论,提出一种新的自适应超参数调节策略,应用于随机梯度算法,表现具有竞争性和稳健性。这为随机梯度算法的分析和设计提供了一种通用方法。
Nov, 2015
该研究发展了随机修正方程 (SME) 框架的数学基础,以便于分析随机梯度算法的动态,其中后者由一类噪声参数很小的随机微分方程逼近。研究表明,这种逼近可以被理解为一种弱逼近,从而在随机目标的一般设置下,得出了关于随机梯度下降、动量 SGD 和随机 Nesterov 加速梯度方法逼近的一些精确而有用的结果。同时,我们还通过显式计算表明,这种连续时间方法可以揭示随机梯度算法的一些重要分析洞见,这在纯离散时间设置中可能很难获得。
Nov, 2018
连续时间近似是研究随机梯度下降从稳定点逃离行为的关键工具,本文提出了基于新颖的随机反向误差分析框架的 Hessian-Aware Stochastic Modified Equation (HA-SME) 来模拟这些行为,在平方目标函数情况下 HA-SME 成为第一个在分布意义上精确恢复标准梯度下降动态的 SDE 模型,能够准确预测 SGD 在稳定点附近的逃逸行为。
May, 2024
本研究探讨随机优化中梯度下降算法(尤其是加速梯度下降和随机梯度下降)的渐近行为,并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理,最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素,以解决非凸优化问题。
Nov, 2017
我们研究了最小二乘问题的连续时间随机梯度下降(SGD)模型的动力学。我们通过分析随机微分方程 (SDE),在训练损失(有限样本)或总体损失(在线设置)的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何,都存在与数据完美插值器。在这两种情况下,我们提供了收敛到(可能退化的)稳态分布的精确非渐近速率。此外,我们描述了渐近分布,给出了其均值、与之偏差的估计,并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。
Jul, 2024
本文讨论了一类随机光滑凸优化问题,其噪声的方差与算法产生的近似解的次优性有关,提出了两个非欧几里德加速随机逼近算法,即随机加速梯度下降(SAGD)和随机梯度外推(SGE),并证明了在适当的条件下,这两个算法可以同时达到最优的迭代和样本复杂度。同时本文还提出了应用 SGE 进行恢复稀疏解的方法。
Jul, 2023
本文提出了一种改进的异步 SGD 算法,通过梯度陈旧程度对学习速率进行调节,以提高其稳定性和收敛速度,在 CIFAR10 和 Imagenet 数据集上进行了实验验证,并证明了该算法的优越性。
Nov, 2015
异步类型算法在异构设置中被分析,提出了统一的收敛理论,并介绍了基于工人洗牌的新型异步方法,数值评估支持理论发现并展示了该方法的良好实际性能。
Oct, 2023
给出了 Riemannian 随机梯度下降(RSGD)到 Riemannian 梯度流和所谓的 Riemannian 随机修改流(RSMF)的收敛速率的定量估计。使用了随机微分几何的工具,我们展示了在小学习率情况下,RSGD 可以通过由无穷维威纳过程驱动的 RSMF 的解来近似。RSMF 考虑了 RSGD 的随机波动,并且相对于确定性的 Riemannian 梯度流提高了近似的阶数。RSGD 使用了一个投射映射的概念,即,一个对指数映射的成本有效逼近,并且在对投射映射、流形的几何和梯度的随机估计作出假设的情况下,我们证明了扩散逼近的弱误差的定量界限。
Feb, 2024