异步随机梯度下降的随机修正方程

May, 2018

异步随机梯度下降的随机修正方程

Stochastic modified equations for the asynchronous stochastic gradient descent

Jing An, Jianfeng Lu, Lexing Ying

TL;DR提出了一种随机修正方程（SME）模型来建模异步随机梯度下降（ASGD）算法，并应用该模型提出了一种最优小批量策略。

Abstract

We propose a stochastic modified equations (SME) for modeling the asynchronous stochastic gradient descent (ASGD) algorithms. The resulting SME of →

stochastic modified equations asynchronous stochastic gradient descent langevin type convergence optimal mini-batching strategy

发现论文，激发创造

随机修正方程与自适应随机梯度算法

通过连续时间随机微分方程，采用最优控制理论，提出一种新的自适应超参数调节策略，应用于随机梯度算法，表现具有竞争性和稳健性。这为随机梯度算法的分析和设计提供了一种通用方法。

Nov, 2015

随机修正方程和随机梯度算法动力学 I：数学基础

该研究发展了随机修正方程 (SME) 框架的数学基础，以便于分析随机梯度算法的动态，其中后者由一类噪声参数很小的随机微分方程逼近。研究表明，这种逼近可以被理解为一种弱逼近，从而在随机目标的一般设置下，得出了关于随机梯度下降、动量 SGD 和随机 Nesterov 加速梯度方法逼近的一些精确而有用的结果。同时，我们还通过显式计算表明，这种连续时间方法可以揭示随机梯度算法的一些重要分析洞见，这在纯离散时间设置中可能很难获得。

Nov, 2018

用于建模 SGD 的 Hessian 感知随机微分方程

连续时间近似是研究随机梯度下降从稳定点逃离行为的关键工具，本文提出了基于新颖的随机反向误差分析框架的 Hessian-Aware Stochastic Modified Equation (HA-SME) 来模拟这些行为，在平方目标函数情况下 HA-SME 成为第一个在分布意义上精确恢复标准梯度下降动态的 SDE 模型，能够准确预测 SGD 在稳定点附近的逃逸行为。

May, 2024

梯度下降算法在统计和计算范式中的随机微分方程渐近分析

本研究探讨随机优化中梯度下降算法（尤其是加速梯度下降和随机梯度下降）的渐近行为，并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理，最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素，以解决非凸优化问题。

Nov, 2017

最小二乘随机梯度下降的随机微分方程模型

我们研究了最小二乘问题的连续时间随机梯度下降（SGD）模型的动力学。我们通过分析随机微分方程 (SDE)，在训练损失（有限样本）或总体损失（在线设置）的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何，都存在与数据完美插值器。在这两种情况下，我们提供了收敛到（可能退化的）稳态分布的精确非渐近速率。此外，我们描述了渐近分布，给出了其均值、与之偏差的估计，并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。

Jul, 2024

状态依赖噪声的加速随机逼近

本文讨论了一类随机光滑凸优化问题，其噪声的方差与算法产生的近似解的次优性有关，提出了两个非欧几里德加速随机逼近算法，即随机加速梯度下降（SAGD）和随机梯度外推（SGE），并证明了在适当的条件下，这两个算法可以同时达到最优的迭代和样本复杂度。同时本文还提出了应用 SGE 进行恢复稀疏解的方法。

Jul, 2023

分布式深度学习的同步异步随机梯度下降算法

本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Nov, 2015

AsGrad: 异步 SGD 算法的锐利统一分析

异步类型算法在异构设置中被分析，提出了统一的收敛理论，并介绍了基于工人洗牌的新型异步方法，数值评估支持理论发现并展示了该方法的良好实际性能。

Oct, 2023

分散式 ASGD 的收敛分析

我们提供了分布式和异步随机梯度下降（DASGD）的收敛速度分析，并证明了它对于一系列条件是有效的。

Sep, 2023

随机修改流在黎曼随机梯度下降中的应用

给出了 Riemannian 随机梯度下降（RSGD）到 Riemannian 梯度流和所谓的 Riemannian 随机修改流（RSMF）的收敛速率的定量估计。使用了随机微分几何的工具，我们展示了在小学习率情况下，RSGD 可以通过由无穷维威纳过程驱动的 RSMF 的解来近似。RSMF 考虑了 RSGD 的随机波动，并且相对于确定性的 Riemannian 梯度流提高了近似的阶数。RSGD 使用了一个投射映射的概念，即，一个对指数映射的成本有效逼近，并且在对投射映射、流形的几何和梯度的随机估计作出假设的情况下，我们证明了扩散逼近的弱误差的定量界限。

Feb, 2024