随机修正方程与自适应随机梯度算法

Nov, 2015

随机修正方程与自适应随机梯度算法

Stochastic modified equations and adaptive stochastic gradient algorithms

Qianxiao Li, Cheng Tai, Weinan E

TL;DR通过连续时间随机微分方程，采用最优控制理论，提出一种新的自适应超参数调节策略，应用于随机梯度算法，表现具有竞争性和稳健性。这为随机梯度算法的分析和设计提供了一种通用方法。

Abstract

We develop the method of stochastic modified equations (SME), in which stochastic gradient algorithms are approximated in the weak sense by conti

stochastic modified equations stochastic gradient algorithms adaptive hyper-parameter adjustment policies optimal control theory continuous-time stochastic differential equations

发现论文，激发创造

随机修正方程和随机梯度算法动力学 I：数学基础

该研究发展了随机修正方程 (SME) 框架的数学基础，以便于分析随机梯度算法的动态，其中后者由一类噪声参数很小的随机微分方程逼近。研究表明，这种逼近可以被理解为一种弱逼近，从而在随机目标的一般设置下，得出了关于随机梯度下降、动量 SGD 和随机 Nesterov 加速梯度方法逼近的一些精确而有用的结果。同时，我们还通过显式计算表明，这种连续时间方法可以揭示随机梯度算法的一些重要分析洞见，这在纯离散时间设置中可能很难获得。

Nov, 2018

异步随机梯度下降的随机修正方程

提出了一种随机修正方程（SME）模型来建模异步随机梯度下降（ASGD）算法，并应用该模型提出了一种最优小批量策略。

May, 2018

用于建模 SGD 的 Hessian 感知随机微分方程

连续时间近似是研究随机梯度下降从稳定点逃离行为的关键工具，本文提出了基于新颖的随机反向误差分析框架的 Hessian-Aware Stochastic Modified Equation (HA-SME) 来模拟这些行为，在平方目标函数情况下 HA-SME 成为第一个在分布意义上精确恢复标准梯度下降动态的 SDE 模型，能够准确预测 SGD 在稳定点附近的逃逸行为。

May, 2024

梯度下降算法在统计和计算范式中的随机微分方程渐近分析

本研究探讨随机优化中梯度下降算法（尤其是加速梯度下降和随机梯度下降）的渐近行为，并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理，最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素，以解决非凸优化问题。

Nov, 2017

随机 ADMM 及其变体的一般连续时间公式

广义随机 ADMM 是一种统一的算法框架，通过对随机 ADMM 及其变种进行连续时间分析，证明在适当缩放下，随机 ADMM 的轨迹弱收敛到带有小噪声的随机微分方程的解，同时提供了为什么松弛参数应选择在 0 到 2 之间的理论解释。

Apr, 2024

状态依赖噪声的加速随机逼近

本文讨论了一类随机光滑凸优化问题，其噪声的方差与算法产生的近似解的次优性有关，提出了两个非欧几里德加速随机逼近算法，即随机加速梯度下降（SAGD）和随机梯度外推（SGE），并证明了在适当的条件下，这两个算法可以同时达到最优的迭代和样本复杂度。同时本文还提出了应用 SGE 进行恢复稀疏解的方法。

Jul, 2023

最小二乘随机梯度下降的随机微分方程模型

我们研究了最小二乘问题的连续时间随机梯度下降（SGD）模型的动力学。我们通过分析随机微分方程 (SDE)，在训练损失（有限样本）或总体损失（在线设置）的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何，都存在与数据完美插值器。在这两种情况下，我们提供了收敛到（可能退化的）稳态分布的精确非渐近速率。此外，我们描述了渐近分布，给出了其均值、与之偏差的估计，并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。

Jul, 2024

随机梯度下降优化方法的适应性

该研究介绍了一种名为 SCSG 的自适应算法，通过批量方差降低和几何随机变量技术，该算法对强凸性和目标精度具有适应性，实现了比其他已有适应性算法更好的理论复杂度。

Apr, 2019

极小化极大优化的 SDEs

利用随机微分方程分析和比较最小化最大化优化器的 SDE 模型，揭示超参数、隐式正则化和隐含的曲率诱导噪声之间的相互作用，并以简化的设定推导出收敛条件和闭式解，进一步揭示不同优化器行为的见解。

Feb, 2024

随机微分方程的可扩展梯度

本文提出一种利用伴随灵敏度方法计算随机微分方程梯度的方法，结合高阶适应性求解器，实现快速、内存高效的梯度计算。并将该方法应用于基于神经网络的随机动力学拟合中，表现出竞争性的性能。

Jan, 2020