该研究发展了随机修正方程 (SME) 框架的数学基础,以便于分析随机梯度算法的动态,其中后者由一类噪声参数很小的随机微分方程逼近。研究表明,这种逼近可以被理解为一种弱逼近,从而在随机目标的一般设置下,得出了关于随机梯度下降、动量 SGD 和随机 Nesterov 加速梯度方法逼近的一些精确而有用的结果。同时,我们还通过显式计算表明,这种连续时间方法可以揭示随机梯度算法的一些重要分析洞见,这在纯离散时间设置中可能很难获得。
Nov, 2018
提出了一种随机修正方程(SME)模型来建模异步随机梯度下降(ASGD)算法,并应用该模型提出了一种最优小批量策略。
May, 2018
连续时间近似是研究随机梯度下降从稳定点逃离行为的关键工具,本文提出了基于新颖的随机反向误差分析框架的 Hessian-Aware Stochastic Modified Equation (HA-SME) 来模拟这些行为,在平方目标函数情况下 HA-SME 成为第一个在分布意义上精确恢复标准梯度下降动态的 SDE 模型,能够准确预测 SGD 在稳定点附近的逃逸行为。
May, 2024
本研究探讨随机优化中梯度下降算法(尤其是加速梯度下降和随机梯度下降)的渐近行为,并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理,最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素,以解决非凸优化问题。
Nov, 2017
广义随机 ADMM 是一种统一的算法框架,通过对随机 ADMM 及其变种进行连续时间分析,证明在适当缩放下,随机 ADMM 的轨迹弱收敛到带有小噪声的随机微分方程的解,同时提供了为什么松弛参数应选择在 0 到 2 之间的理论解释。
Apr, 2024
本文讨论了一类随机光滑凸优化问题,其噪声的方差与算法产生的近似解的次优性有关,提出了两个非欧几里德加速随机逼近算法,即随机加速梯度下降(SAGD)和随机梯度外推(SGE),并证明了在适当的条件下,这两个算法可以同时达到最优的迭代和样本复杂度。同时本文还提出了应用 SGE 进行恢复稀疏解的方法。
Jul, 2023
我们研究了最小二乘问题的连续时间随机梯度下降(SGD)模型的动力学。我们通过分析随机微分方程 (SDE),在训练损失(有限样本)或总体损失(在线设置)的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何,都存在与数据完美插值器。在这两种情况下,我们提供了收敛到(可能退化的)稳态分布的精确非渐近速率。此外,我们描述了渐近分布,给出了其均值、与之偏差的估计,并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。
Jul, 2024
该研究介绍了一种名为 SCSG 的自适应算法,通过批量方差降低和几何随机变量技术,该算法对强凸性和目标精度具有适应性,实现了比其他已有适应性算法更好的理论复杂度。
Apr, 2019
利用随机微分方程分析和比较最小化最大化优化器的 SDE 模型,揭示超参数、隐式正则化和隐含的曲率诱导噪声之间的相互作用,并以简化的设定推导出收敛条件和闭式解,进一步揭示不同优化器行为的见解。
Feb, 2024
本文提出一种利用伴随灵敏度方法计算随机微分方程梯度的方法,结合高阶适应性求解器,实现快速、内存高效的梯度计算。并将该方法应用于基于神经网络的随机动力学拟合中,表现出竞争性的性能。
Jan, 2020