连续时间随机梯度下降

Nov, 2016

Stochastic Gradient Descent in Continuous Time

Justin Sirignano, Konstantinos Spiliopoulos

TL;DR随机梯度下降法在连续时间中的应用，通过在线参数更新和随机微分方程求解实现连续时间模型的统计学习和优化，该方法在求解高维美式期权问题方面具有潜在的优势。

Abstract

stochastic gradient descent in continuous time (SGDCT) provides a computationally efficient method for the statistical learning of continuous-time models, which are widely used in science, engineering, and financ

stochastic gradient descent continuous-time models online parameter update stochastic differential equation american options

发现论文，激发创造

连续时间随机梯度下降：中心极限定理

本文提出了随机梯度下降在连续时间上的应用，论述了该算法在强凸及非凸目标函数下的收敛速度，探讨了在随机分析和统计学习领域的数学应用。

Oct, 2017

机器学习类型的带噪随机梯度下降。第二部分：连续时间分析

通过随机梯度下降和先进的基于随机梯度下降的算法找到人工神经网络的适当参数，优化算法在目标函数的某种噪声区域内倾向于选择 “平坦” 最小值，这一趋势与连续时间 SGD 与均匀噪声的选择是不同的。

Jun, 2021

随机梯度算法的变分分析

本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断，通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架，让 SGD 有效地作为贝叶斯推断的一种方法，发现其可以成为概率模型优化超参数的一种新途径。

Feb, 2016

梯度下降算法在统计和计算范式中的随机微分方程渐近分析

本研究探讨随机优化中梯度下降算法（尤其是加速梯度下降和随机梯度下降）的渐近行为，并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理，最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素，以解决非凸优化问题。

Nov, 2017

最小二乘随机梯度下降的随机微分方程模型

我们研究了最小二乘问题的连续时间随机梯度下降（SGD）模型的动力学。我们通过分析随机微分方程 (SDE)，在训练损失（有限样本）或总体损失（在线设置）的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何，都存在与数据完美插值器。在这两种情况下，我们提供了收敛到（可能退化的）稳态分布的精确非渐近速率。此外，我们描述了渐近分布，给出了其均值、与之偏差的估计，并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。

Jul, 2024

利用随机梯度下降进行近似贝叶斯推断

本文从随机过程的角度出发，论证了常数学习率随机梯度下降算法（constant SGD）可用作一种近似贝叶斯推断算法，其可优化模型中的超级参数，同时分析了 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring 的近似误差以及 Polyak 平均算法的最优性。在此基础上，提出了一种可扩展的近似马尔科夫链蒙特卡罗（MCMC）算法，即平均随机梯度采样算法（Averaged Stochastic Gradient Sampler）。

Apr, 2017

随机梯度下降中模型参数的统计推断

研究了在 SGD 下如何进行统计推断以及使用其构建渐近无偏估计和置信区间，最终提出了一种高维线性回归算法，可以计算稀疏回归系数和置信区间。

Oct, 2016

重尾梯度噪声下随机梯度下降的首次退出时间分析

本研究提出了一种新的视角来分析随机梯度下降，即将其作为一阶随机微分方程（SDE）的离散化，进而推导出了使得离散化后的系统与连续时间系统行为相似的步长条件，并分析了算法和问题参数对误差的影响。

Jun, 2019

利用连续时间控制和摄动理论解锁最佳批处理大小日程

我们推导了随机梯度下降和类似算法的最优批次大小计划，通过近似离散参数更新过程为一族随机微分方程，进而使用学习率展开进行优化处理。我们应用这些结果于线性回归任务中。

Dec, 2023

分布式随机梯度追踪方法

本文研究了分布式多智能体优化问题，其中每个智能体拥有一个光滑和强凸的本地代价函数。在仅具有本地代价函数梯度的无偏估计时，我们提出了一种分布式随机梯度跟踪方法（DSGT）和一种类似于 Gossip 的随机梯度跟踪方法（GSGT），并展示了这些方法对大规模网络的可比性能和通信成本的差异。

May, 2018