研究了在 SGD 下如何进行统计推断以及使用其构建渐近无偏估计和置信区间,最终提出了一种高维线性回归算法,可以计算稀疏回归系数和置信区间。
Oct, 2016
本文从随机过程的角度出发,论证了常数学习率随机梯度下降算法(constant SGD)可用作一种近似贝叶斯推断算法,其可优化模型中的超级参数,同时分析了 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring 的近似误差以及 Polyak 平均算法的最优性。在此基础上,提出了一种可扩展的近似马尔科夫链蒙特卡罗(MCMC)算法,即平均随机梯度采样算法(Averaged Stochastic Gradient Sampler)。
Apr, 2017
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架,让 SGD 有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016
本文探讨了随机梯度下降算法的加速收敛方法,提出了一种自适应加权平均方案,并提供了非渐近收敛的统计保证和在线推断方法。最终的结论表明,该自适应加权平均方案不仅在统计率上是最优的,而且在非渐近收敛方面也具有有利的效果。
Jul, 2023
提出一种基于平均隐式(averaged implicit)随机梯度下降的迭代过程,旨在解决参数估计过程中的数值不稳定性和统计效率问题。实践证明这种方法比其他现有方法表现更为出色。
May, 2015
通过采用分别基于重采样的多个随机梯度下降和在线方法,我们实现了对于随机梯度下降解的置信区间的构建,通过最近被称为廉价引导思想和 SGD 的 Berry-Esseen 型界限,我们显著减少了计算量,并绕过了现有分批方法中复杂的混合条件。
Oct, 2023
本文应用马尔科夫链理论,通过随机梯度下降(SGD)算法来计算目标函数,并提供了一种新的 Richardson-Romberg 外推方法来优化 SGD 算法,通过渐进展开分析,总结出其与初始条件、噪声和步长的相关性。
Jul, 2017
本研究探讨了非凸非光滑目标函数中常数步长随机梯度下降算法的渐近正态结果,结果表明只要非凸和非光滑目标函数满足耗散性特性,SGD 算法的迭代平均值就会渐近正态分布,该结果可用于构建对于使用 SGD 算法的非凸问题的置信区间。同时,本文通过对其与马尔可夫链的关系进行了详细地分析,还对目标函数的临界点与其期望值之间的偏差进行了表征。
Jun, 2020
本文研究在强凸光滑目标下使用常数步长随机梯度下降的优化问题,通过马洛夫链的视角对其性质进行研究,证明了当梯度噪音分布满足一定条件时,该迭代过程以总变差距离或 Wasserstein-2 距离收敛于一个不变分布,同时证明了该极限分布具有次高斯或次指数分布的浓度性质;最后针对一些具体应用,推导出了高可信度界限。
Jun, 2023
研究了 SGD 算法在高维参数空间下最简单在线版本的性能,通过对样本数量的阈值来确定参数估计的一致性,其阈值是多项式维度的,取决于信息指数。
Mar, 2020