解密双倍随机梯度下降法
本文围绕随机梯度下降 (SGD) 优化方法,在经验风险最小化的线性预测器上,利用原始 - 对偶视角对 SGD 进行了分析,并证明了一种细粒度复杂度界的方法,以数据矩阵为基础,证明了它比现有的复杂度界更加紧密地预测了 SGD 的性能。
Jun, 2023
提出 SGD 收敛的通用简单定理,该定理可描述与特定概率法相关的各种 SGD 变体的收敛性。该定理是第一次执行这种分析,大多数 SGD 的变体以前从未明确考虑过。论文依赖于最近引入的期望平滑性的概念,并不依赖于随机梯度方差的统一界限。
Jan, 2019
本文从随机过程的角度出发,论证了常数学习率随机梯度下降算法(constant SGD)可用作一种近似贝叶斯推断算法,其可优化模型中的超级参数,同时分析了 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring 的近似误差以及 Polyak 平均算法的最优性。在此基础上,提出了一种可扩展的近似马尔科夫链蒙特卡罗(MCMC)算法,即平均随机梯度采样算法(Averaged Stochastic Gradient Sampler)。
Apr, 2017
本文研究了随机重洗方法的收敛速率,表明在特定条件下随机重洗方法通过迭代平均和逐渐缩小的步长可以以概率一的方式在优化目标值的次优性上以 $\Theta (1/k^{2s})$ 的速率收敛,从而改善了 SGD 的 $\Omega (1/k)$ 收敛速率。
Oct, 2015
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架,让 SGD 有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016
通过采用分别基于重采样的多个随机梯度下降和在线方法,我们实现了对于随机梯度下降解的置信区间的构建,通过最近被称为廉价引导思想和 SGD 的 Berry-Esseen 型界限,我们显著减少了计算量,并绕过了现有分批方法中复杂的混合条件。
Oct, 2023
本文介绍了倍增随机梯度 MCMC 这一简单通用的方法,用于在折叠的连续参数空间中对深度生成模型进行(近似)贝叶斯推理。我们的方法不仅适用于密度估计和数据生成的任务,还可以用于缺失数据的填充,且在性能方面优于许多现有的竞争对手。
Jun, 2015
研究分布式学习中的本地 SGD 和基于随机梯度的优化方法,通过随机梯度下降的方案,降低了随机抽样带来的估计偏差和方差,提高了模型的训练效率,实验表明,该方案的效果比替代方案更好。
Oct, 2021