Apr, 2017

利用随机梯度下降进行近似贝叶斯推断

TL;DR本文从随机过程的角度出发,论证了常数学习率随机梯度下降算法(constant SGD)可用作一种近似贝叶斯推断算法,其可优化模型中的超级参数,同时分析了 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring 的近似误差以及 Polyak 平均算法的最优性。在此基础上,提出了一种可扩展的近似马尔科夫链蒙特卡罗(MCMC)算法,即平均随机梯度采样算法(Averaged Stochastic Gradient Sampler)。