通过经验性亚稳定性证明 Langevin 算法的局部最优性和一般化保证
本文提出了强化的 Langevin dynamics 算法和分析框架,理论证明了全局收敛性,能在各自的梯度复杂度内接近极小值。
Jul, 2017
本文研究了随机梯度 Langevin 动力学(SGLD)算法,针对非凸优化问题,注入适当缩放的高斯噪声来更新参数,我们分析了算法达到参数空间任意子集的的命中时间,从理论上得出结论:对于经验风险最小化,如果经验风险在点值上接近于(平滑的)总体风险,则该算法在多项式时间内实现了总体风险的近似局部最小值,逃离仅存在于经验风险的次优局部最小值。同时,我们还展示了 SGLD 如何改进学习零一损失下线性分类器的已知最佳学习结果之一。
Feb, 2017
文章研究了如何使用基于 Langevin 随机微分方程的采样方法,对高维概率分布进行采样, 并通过 Wasserstein 距离和总变差距离获得收敛到平稳状态的非渐进界限。同时,对于测量和有界函数报告了平均均方误差和指数偏差不等式的界限,并提供了二分类回归的贝叶斯推断例证。
May, 2016
基于随机化的 Nesterov 方案,我们开发了一类新颖的 MCMC 算法。我们通过适当地添加噪声,得到了一种时间非齐次的欠阻尼 Langevin 方程,并证明它的不变测度是一个指定的目标分布。同时,我们还建立了它在 Wasserstein-2 距离下的收敛速率。我们还提供了调整的 Metropolis 和随机梯度版本的所提出的 Langevin 动力学。实验演示显示出所提出的方法在统计学和图像处理中不同模型上优于典型的 Langevin 抽样器,包括更好的 Markov 链混合性能。
Nov, 2023
本文探讨了基于梯度的算法,如梯度下降、随机梯度下降、其持续变体和 Langevin 算法如何浏览非凸损失景观及其在有限样本复杂度下能否达到最佳泛化误差问题。我们以高维相位恢复问题的损失景观为典型例子,证明了随机梯度下降算法可以在控制参数区域达到完美的泛化性能,而梯度下降算法则不能。我们还运用动力学均场理论从统计物理学的角度分析了这些算法在连续时间、以热启动方式和大系统规模下的全部轨迹,并揭示了景观和算法的若干有趣特性,如梯度下降算法可以从更少的初始信息获得更好的泛化性能。
Mar, 2021
该研究针对噪声高维推理问题,通过对比 Langevin 算法和 AMP 算法的表现,发现 Langevin 算法的阈值不如 AMP 算法,并猜测这是由于该参数区域中存在残留玻璃态,最后还介绍了一种使用 Langevin 算法的景观退火协议,可以接近 AMP 的性能。
Dec, 2018
本研究解决了 Metropolis-Adjusted Langevin Algorithm 在非全局 Lipschitz drift 系数的 SDE 中存在的谱间隙问题,这个算法可以在有限的时间区间内近似路径地解决 SDE,并说明了该算法距离平衡点的收敛速度。
Aug, 2010
研究了一种基于欧拉离散化的采样方法来逼近正态化后的概率密度相对于勒贝格度量的目标分布,通过分析欧拉离散化中步长的变化,获得了总变异距离下的收敛界限,并着重介绍了该方法在高维情况下的应用及维度依赖性,扩展了 Dalalyan 2014 的结果。
Jul, 2015
我们提出了一种名为 Metropolis-adjusted Mirror Langevin 算法的新方法,用于从支持为紧凸集的分布中进行近似抽样。该算法在镜像 Langevin 算法(Zhang 等人,2020)的单步离散化所产生的马尔可夫链中添加了接受 - 拒绝过滤器,而已知的镜像 Langevin 算法的离散化具有渐近偏差。当势函数相对平滑、凸且在自共轭镜像函数上满足 Lipschitz 条件时,我们给出了所提算法的混合时间的上界。作为算法产生的马尔可夫链可逆性的结果,我们对近似抽样的误差容限得到了指数级的改善依赖。我们还进行了数值实验以验证我们的理论发现。
Dec, 2023
我们研究了使用随机梯度朗之万动力学(SGLD)进行非凸优化的问题。我们采用了一种基于李雅普诺夫势函数和优化的新策略来分析 SGLD 收敛到全局最小值的情况,将以前关于 SGLD 的轻微条件转化为基于李雅普诺夫势函数的几何属性。我们提供了在以前研究 SGLD 进行优化的设置中的改进速度,SGLD 的第一个有界梯度复杂性保证以及连续时间朗之万动力学在满足一些适度正则性假设时,离散时间 SGLD 也能成功的证明。
Jul, 2024