低精度随机梯度 Langevin 动力学
使用加权运输成本不等式来量化 SGLD 在欧几里得 2 - 瓦瑟斯坦距离下收敛到随机分布的速率,并在非凸学习问题的背景下提供有限时间保证来找到两种风险的近似最小化器。
Feb, 2017
本文研究了基于大规模数据集的贝叶斯学习的关键 MCMC 算法,发现当前常用的 SGLD 算法存在问题,但通过引入控制变量后的 SGLD Fixed Point 算法可以有效改善该问题,且与 Langevin Monte Carlo 算法计算成本相比更低,可为该类应用提供参考。
Nov, 2018
低精度训练是一种具有低成本的技术,可以提高深度神经网络的训练效率,而不会牺牲太多准确性。本文通过在强对数凹和非对数凹分布中使用低精度和全精度梯度累加器的随机梯度哈密顿蒙特卡罗(SGHMC)进行低精度采样的研究。理论上,我们的结果表明,对于非对数凹分布,在 2-Wasserstein 距离中实现 ε- 错误,与最先进的低精度采样器随机梯度朗之万动力学(SGLD)相比,低精度 SGHMC 实现了二次改进(〜O(ε^ -2μ^ -2 log^2(ε^ -1)))。此外,我们证明了相对于低精度的 SGLD,低精度的 SGHMC 对量化误差更具鲁棒性,因为基于动量的更新对梯度噪音具有鲁棒性。实验上,我们在合成数据,MNIST、CIFAR-10 和 CIFAR-100 数据集上进行了实验,验证了我们的理论发现。我们的研究突出了低精度 SGHMC 作为一种高效精确的大规模和资源有限的机器学习采样方法的潜力。
Oct, 2023
本文提供了一种用于反向学习的被动随机梯度 Langevin 动力学 (PSGLD) 算法的有限样本分析,并提供了 2-Wasserstein 距离的有限时间界限来衡量算法和基于前向学习的随机梯度算法之间的性能。
Apr, 2023
在机器学习中,使用贝叶斯后验概率分布作为模型参数可以避免过度拟合,Stochastic gradient Langevin dynamics (SGLD) 是一种近似贝叶斯后验概率分布的算法,使用易于计算的 Fisher 矩阵近似,使用 Fisher 矩阵预处理可以用于大型神经网络中,并将 SGLD 与 dropout 类似的正则化技术相结合以减少过拟合。
Dec, 2017
本文研究了随机梯度 Langevin 动力学(SGLD)算法,针对非凸优化问题,注入适当缩放的高斯噪声来更新参数,我们分析了算法达到参数空间任意子集的的命中时间,从理论上得出结论:对于经验风险最小化,如果经验风险在点值上接近于(平滑的)总体风险,则该算法在多项式时间内实现了总体风险的近似局部最小值,逃离仅存在于经验风险的次优局部最小值。同时,我们还展示了 SGLD 如何改进学习零一损失下线性分类器的已知最佳学习结果之一。
Feb, 2017
本文提供一种新的收敛分析方法,使用辅助的时间可逆 Markov 链来分析随机梯度 Langevin 动力学(SGLD)对一类难以 log-concave 优化分布进行采样的效果。在目标分布的一定条件下,我们证明了 SGLD 的收敛速度优于过去的研究成果,并提供了一些关于 Langevin 算法收敛和快速随机梯度采样算法设计方面的新思路。
Oct, 2020
本文基于量化优化提出一种替代的随机下降学习方程,采用随机分析方法,使用 Langevin SDE 动态实现可控噪声,无需添加噪声或调整 mini-batch 大小,在各种数据集上证明了该算法的有效性,同时提供了所提算法的简单 PyTorch 实现。
May, 2023
我们研究了使用固定步长的随机梯度 Langevin 动力学(SGLD)方法的特点及其偏差,并提出了一个修正的 SGLD 方法,在步长的一阶上消除了由于随机梯度方差引起的渐近偏差,并且得到了有限时间偏差、方差和均方误差(MSE)的界限。
Jan, 2015