本文提出了随机梯度下降在连续时间上的应用,论述了该算法在强凸及非凸目标函数下的收敛速度,探讨了在随机分析和统计学习领域的数学应用。
Oct, 2017
通过随机梯度下降和先进的基于随机梯度下降的算法找到人工神经网络的适当参数,优化算法在目标函数的某种噪声区域内倾向于选择 “平坦” 最小值,这一趋势与连续时间 SGD 与均匀噪声的选择是不同的。
Jun, 2021
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架,让 SGD 有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016
本研究探讨随机优化中梯度下降算法(尤其是加速梯度下降和随机梯度下降)的渐近行为,并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理,最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素,以解决非凸优化问题。
Nov, 2017
我们研究了最小二乘问题的连续时间随机梯度下降(SGD)模型的动力学。我们通过分析随机微分方程 (SDE),在训练损失(有限样本)或总体损失(在线设置)的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何,都存在与数据完美插值器。在这两种情况下,我们提供了收敛到(可能退化的)稳态分布的精确非渐近速率。此外,我们描述了渐近分布,给出了其均值、与之偏差的估计,并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。
Jul, 2024
本文从随机过程的角度出发,论证了常数学习率随机梯度下降算法(constant SGD)可用作一种近似贝叶斯推断算法,其可优化模型中的超级参数,同时分析了 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring 的近似误差以及 Polyak 平均算法的最优性。在此基础上,提出了一种可扩展的近似马尔科夫链蒙特卡罗(MCMC)算法,即平均随机梯度采样算法(Averaged Stochastic Gradient Sampler)。
Apr, 2017
研究了在 SGD 下如何进行统计推断以及使用其构建渐近无偏估计和置信区间,最终提出了一种高维线性回归算法,可以计算稀疏回归系数和置信区间。
Oct, 2016
本研究提出了一种新的视角来分析随机梯度下降,即将其作为一阶随机微分方程(SDE)的离散化,进而推导出了使得离散化后的系统与连续时间系统行为相似的步长条件,并分析了算法和问题参数对误差的影响。
Jun, 2019
我们推导了随机梯度下降和类似算法的最优批次大小计划,通过近似离散参数更新过程为一族随机微分方程,进而使用学习率展开进行优化处理。我们应用这些结果于线性回归任务中。
Dec, 2023
本文研究了分布式多智能体优化问题,其中每个智能体拥有一个光滑和强凸的本地代价函数。在仅具有本地代价函数梯度的无偏估计时,我们提出了一种分布式随机梯度跟踪方法(DSGT)和一种类似于 Gossip 的随机梯度跟踪方法(GSGT),并展示了这些方法对大规模网络的可比性能和通信成本的差异。
May, 2018