使用 SGD 进行统计推断

AAAIMay, 2017

Statistical inference using SGD

Tianyang Li, Liu Liu, Anastasios Kyrillidis, Constantine Caramanis

TL;DR使用随机梯度下降方法的平均值作为统计推断，并经过适当的缩放，可用于频率派统计推断。这种基于 SGD 的推断方法是一种一阶方法，并非常适用于大规模问题。

Abstract

We present a novel method for frequentist statistical inference in $M$-estimation problems, based on stochastic gradient descent (SGD) with a fixed step size: we demonstrate that the average of such SGD sequences

sgd-based inference frequentist statistical inference m-estimation problems stochastic gradient descent large scale problems

发现论文，激发创造

随机梯度下降中模型参数的统计推断

研究了在 SGD 下如何进行统计推断以及使用其构建渐近无偏估计和置信区间，最终提出了一种高维线性回归算法，可以计算稀疏回归系数和置信区间。

Oct, 2016

利用随机梯度下降进行近似贝叶斯推断

本文从随机过程的角度出发，论证了常数学习率随机梯度下降算法（constant SGD）可用作一种近似贝叶斯推断算法，其可优化模型中的超级参数，同时分析了 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring 的近似误差以及 Polyak 平均算法的最优性。在此基础上，提出了一种可扩展的近似马尔科夫链蒙特卡罗（MCMC）算法，即平均随机梯度采样算法（Averaged Stochastic Gradient Sampler）。

Apr, 2017

随机梯度算法的变分分析

本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断，通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架，让 SGD 有效地作为贝叶斯推断的一种方法，发现其可以成为概率模型优化超参数的一种新途径。

Feb, 2016

加权平均随机梯度下降：渐近正态性与最优性

本文探讨了随机梯度下降算法的加速收敛方法，提出了一种自适应加权平均方案，并提供了非渐近收敛的统计保证和在线推断方法。最终的结论表明，该自适应加权平均方案不仅在统计率上是最优的，而且在非渐近收敛方面也具有有利的效果。

Jul, 2023

随机梯度下降的稳定性和最优性

提出一种基于平均隐式（averaged implicit）随机梯度下降的迭代过程，旨在解决参数估计过程中的数值不稳定性和统计效率问题。实践证明这种方法比其他现有方法表现更为出色。

May, 2015

高效不确定性量化：简易重采样随机梯度下降

通过采用分别基于重采样的多个随机梯度下降和在线方法，我们实现了对于随机梯度下降解的置信区间的构建，通过最近被称为廉价引导思想和 SGD 的 Berry-Esseen 型界限，我们显著减少了计算量，并绕过了现有分批方法中复杂的混合条件。

Oct, 2023

常步长随机梯度下降与马尔可夫链的桥梁

本文应用马尔科夫链理论，通过随机梯度下降（SGD）算法来计算目标函数，并提供了一种新的 Richardson-Romberg 外推方法来优化 SGD 算法，通过渐进展开分析，总结出其与初始条件、噪声和步长的相关性。

Jul, 2017

非凸区域中恒定步长随机梯度下降的分析：渐近正态性和偏差

本研究探讨了非凸非光滑目标函数中常数步长随机梯度下降算法的渐近正态结果，结果表明只要非凸和非光滑目标函数满足耗散性特性，SGD 算法的迭代平均值就会渐近正态分布，该结果可用于构建对于使用 SGD 算法的非凸问题的置信区间。同时，本文通过对其与马尔可夫链的关系进行了详细地分析，还对目标函数的临界点与其期望值之间的偏差进行了表征。

Jun, 2020

通过马尔可夫链实现常数步长 SGD 的收敛和集中特性

本文研究在强凸光滑目标下使用常数步长随机梯度下降的优化问题，通过马洛夫链的视角对其性质进行研究，证明了当梯度噪音分布满足一定条件时，该迭代过程以总变差距离或 Wasserstein-2 距离收敛于一个不变分布，同时证明了该极限分布具有次高斯或次指数分布的浓度性质；最后针对一些具体应用，推导出了高可信度界限。

Jun, 2023

高维推断中的非凸损失在线随机梯度下降

研究了 SGD 算法在高维参数空间下最简单在线版本的性能，通过对样本数量的阈值来确定参数估计的一致性，其阈值是多项式维度的，取决于信息指数。

Mar, 2020