随机梯度下降中模型参数的统计推断

Oct, 2016

随机梯度下降中模型参数的统计推断

Statistical Inference for Model Parameters in Stochastic Gradient Descent

Xi Chen, Jason D. Lee, Xin T. Tong, Yichen Zhang

TL;DR研究了在 SGD 下如何进行统计推断以及使用其构建渐近无偏估计和置信区间，最终提出了一种高维线性回归算法，可以计算稀疏回归系数和置信区间。

Abstract

The stochastic gradient descent (SGD) algorithm has been widely used in statistical estimation for large-scale data due to its computational and memory efficiency. While most existing works focus on the convergence of the objective function or the error of the obtained solution, we inv

stochastic gradient descent statistical inference asymptotic covariance linear regression debiased estimator

发现论文，激发创造

使用 SGD 进行统计推断

使用随机梯度下降方法的平均值作为统计推断，并经过适当的缩放，可用于频率派统计推断。这种基于 SGD 的推断方法是一种一阶方法，并非常适用于大规模问题。

May, 2017

利用随机梯度下降进行近似贝叶斯推断

本文从随机过程的角度出发，论证了常数学习率随机梯度下降算法（constant SGD）可用作一种近似贝叶斯推断算法，其可优化模型中的超级参数，同时分析了 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring 的近似误差以及 Polyak 平均算法的最优性。在此基础上，提出了一种可扩展的近似马尔科夫链蒙特卡罗（MCMC）算法，即平均随机梯度采样算法（Averaged Stochastic Gradient Sampler）。

Apr, 2017

随机梯度算法的变分分析

本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断，通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架，让 SGD 有效地作为贝叶斯推断的一种方法，发现其可以成为概率模型优化超参数的一种新途径。

Feb, 2016

高维推断中的非凸损失在线随机梯度下降

研究了 SGD 算法在高维参数空间下最简单在线版本的性能，通过对样本数量的阈值来确定参数估计的一致性，其阈值是多项式维度的，取决于信息指数。

Mar, 2020

基于随机梯度的估计器的渐近性和有限样本性质

本文介绍了一种隐式随机梯度下降（ISGD）算法，其通过收缩标准随机梯度下降（SGD）算法的更新步长以提高稳定性，同时不增加计算负担。通过 ISGD 算法，可以估算广义线性模型、Cox 比例风险和 M 估计量等模型的参数，并提供了它们的理论分析，包括渐近性质和有限样本误差界。实验结果表明，ISGD 算法可在大规模数据集上提高运行效率。

Aug, 2014

带有偏置但一致的梯度估计的随机梯度下降

本研究针对带图等情景，探讨 Stochastic gradient descent (SGD) 中 consitent estimator 的效用及其相对于 unbiased estimator 的同等收敛性。实验证明，consistent estimator 在 strongly convex, convex, and nonconvex 目标下均表现良好，这一研究有助于进一步提高 SGD 的效率并设计大规模图的高效训练算法。

Jul, 2018

随机梯度下降的信息理论泛化界

本研究研究了随机梯度下降（SGD）这种普遍使用的随机优化方法的泛化特性，提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限，其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。

Feb, 2021

非凸区域中恒定步长随机梯度下降的分析：渐近正态性和偏差

本研究探讨了非凸非光滑目标函数中常数步长随机梯度下降算法的渐近正态结果，结果表明只要非凸和非光滑目标函数满足耗散性特性，SGD 算法的迭代平均值就会渐近正态分布，该结果可用于构建对于使用 SGD 算法的非凸问题的置信区间。同时，本文通过对其与马尔可夫链的关系进行了详细地分析，还对目标函数的临界点与其期望值之间的偏差进行了表征。

Jun, 2020

加权平均随机梯度下降：渐近正态性与最优性

本文探讨了随机梯度下降算法的加速收敛方法，提出了一种自适应加权平均方案，并提供了非渐近收敛的统计保证和在线推断方法。最终的结论表明，该自适应加权平均方案不仅在统计率上是最优的，而且在非渐近收敛方面也具有有利的效果。

Jul, 2023

随机梯度下降的稳定性和最优性

提出一种基于平均隐式（averaged implicit）随机梯度下降的迭代过程，旨在解决参数估计过程中的数值不稳定性和统计效率问题。实践证明这种方法比其他现有方法表现更为出色。

May, 2015