解密双倍随机梯度下降法

ICMLJun, 2024

Demystifying SGD with Doubly Stochastic Gradients

Kyurae Kim, Joohwan Ko, Yi-An Ma, Jacob R. Gardner

TL;DR对于以不可解期望的求和形式作为优化目标的问题，除了有界方差等强假设条件外，很少了解双重随机梯度下降（doubly SGD）的收敛性质。本研究在一般条件下，建立了具有独立小批量和随机重排的双重随机梯度下降的收敛性，并允许对依赖的分量梯度估计进行详细分析，推荐在每次迭代的计算预算中如何进行合理分配，同时证明随机重排（RR）可以改善子采样噪声的复杂度依赖关系。

Abstract

optimization objectives in the form of a sum of intractable expectations are rising in importance (e.g., diffusion models, variational autoencoders, and many more), a setting also known as "finite sum with infinite data." For these problems, a popular strategy is to employ

optimization objectives sgd with doubly stochastic gradients convergence properties dependent component gradient estimators random reshuffling

发现论文，激发创造

Primal-Dual 视角下的洗牌 SGD 经验风险最小化及改进界限

本文围绕随机梯度下降 (SGD) 优化方法，在经验风险最小化的线性预测器上，利用原始 - 对偶视角对 SGD 进行了分析，并证明了一种细粒度复杂度界的方法，以数据矩阵为基础，证明了它比现有的复杂度界更加紧密地预测了 SGD 的性能。

Jun, 2023

SGD: 一般分析和改进速率

提出 SGD 收敛的通用简单定理，该定理可描述与特定概率法相关的各种 SGD 变体的收敛性。该定理是第一次执行这种分析，大多数 SGD 的变体以前从未明确考虑过。论文依赖于最近引入的期望平滑性的概念，并不依赖于随机梯度方差的统一界限。

Jan, 2019

随机梯度下降中模型参数的统计推断

研究了在 SGD 下如何进行统计推断以及使用其构建渐近无偏估计和置信区间，最终提出了一种高维线性回归算法，可以计算稀疏回归系数和置信区间。

Oct, 2016

利用随机梯度下降进行近似贝叶斯推断

本文从随机过程的角度出发，论证了常数学习率随机梯度下降算法（constant SGD）可用作一种近似贝叶斯推断算法，其可优化模型中的超级参数，同时分析了 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring 的近似误差以及 Polyak 平均算法的最优性。在此基础上，提出了一种可扩展的近似马尔科夫链蒙特卡罗（MCMC）算法，即平均随机梯度采样算法（Averaged Stochastic Gradient Sampler）。

Apr, 2017

为什么随机重洗超越随机梯度下降

本文研究了随机重洗方法的收敛速率，表明在特定条件下随机重洗方法通过迭代平均和逐渐缩小的步长可以以概率一的方式在优化目标值的次优性上以 $\Theta (1/k^{2s})$ 的速率收敛，从而改善了 SGD 的 $\Omega (1/k)$ 收敛速率。

Oct, 2015

随机梯度算法的变分分析

本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断，通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架，让 SGD 有效地作为贝叶斯推断的一种方法，发现其可以成为概率模型优化超参数的一种新途径。

Feb, 2016

高效不确定性量化：简易重采样随机梯度下降

通过采用分别基于重采样的多个随机梯度下降和在线方法，我们实现了对于随机梯度下降解的置信区间的构建，通过最近被称为廉价引导思想和 SGD 的 Berry-Esseen 型界限，我们显著减少了计算量，并绕过了现有分批方法中复杂的混合条件。

Oct, 2023

使用双重随机 MCMC 学习深度生成模型

本文介绍了倍增随机梯度 MCMC 这一简单通用的方法，用于在折叠的连续参数空间中对深度生成模型进行（近似）贝叶斯推理。我们的方法不仅适用于密度估计和数据生成的任务，还可以用于缺失数据的填充，且在性能方面优于许多现有的竞争对手。

Jun, 2015

SGD 和 Hogwild!：在无需有界梯度假设的情况下收敛

该研究论文讨论了随机梯度下降算法的收敛性分析，提出了一种在异步并行环境下使用降低学习率机制的算法，并证明了其收敛性。

Feb, 2018

小批量 SGD 与局部 SGD 洗牌：紧密收敛界与进一步研究

研究分布式学习中的本地 SGD 和基于随机梯度的优化方法，通过随机梯度下降的方案，降低了随机抽样带来的估计偏差和方差，提高了模型的训练效率，实验表明，该方案的效果比替代方案更好。

Oct, 2021