基于 Langevin 动力学的非凸优化算法的全局收敛性
使用加权运输成本不等式来量化 SGLD 在欧几里得 2 - 瓦瑟斯坦距离下收敛到随机分布的速率,并在非凸学习问题的背景下提供有限时间保证来找到两种风险的近似最小化器。
Feb, 2017
本文提供一种新的收敛分析方法,使用辅助的时间可逆 Markov 链来分析随机梯度 Langevin 动力学(SGLD)对一类难以 log-concave 优化分布进行采样的效果。在目标分布的一定条件下,我们证明了 SGLD 的收敛速度优于过去的研究成果,并提供了一些关于 Langevin 算法收敛和快速随机梯度采样算法设计方面的新思路。
Oct, 2020
本文研究了随机梯度 Langevin 动力学(SGLD)算法,针对非凸优化问题,注入适当缩放的高斯噪声来更新参数,我们分析了算法达到参数空间任意子集的的命中时间,从理论上得出结论:对于经验风险最小化,如果经验风险在点值上接近于(平滑的)总体风险,则该算法在多项式时间内实现了总体风险的近似局部最小值,逃离仅存在于经验风险的次优局部最小值。同时,我们还展示了 SGLD 如何改进学习零一损失下线性分类器的已知最佳学习结果之一。
Feb, 2017
本文提出了两个理论,分别使用稳定性和 PAC-Bayesian 结果的非渐进离散时间分析,研究了 Stochastic Gradient Langevin Dynamics(SGLD)在非凸目标下的泛化误差,其边界没有隐含依赖于参数的维数、规范或其他容量测量,优美地刻画了非凸设置中 “快速训练保证泛化” 的现象
Jul, 2017
基于 Langevin 扩散,提出一种新算法,在球面乘积流形上进行非凸优化和采样,并与 Burer-Monteiro 方法一起,应用于求解具有对角限制的半定规划问题。该算法在有限次迭代中生成 Gibbs 分布,并在 Kullback–Leibler 散度中保证渐进精度,其迭代次数呈多项式级别增长。与结果相结合,我们提供了全局最优性性保证,即使是存在鞍点和局部最小值的问题,算法仍能近似于全局最优解。
Oct, 2020
该论文提出了新的调整 Langevin 算法的洞见,并表明该方法可以被公式化为定义在阶为 2 的 Wasserstein 空间上的目标函数的一阶优化算法。
Feb, 2018
本文研究了基于大规模数据集的贝叶斯学习的关键 MCMC 算法,发现当前常用的 SGLD 算法存在问题,但通过引入控制变量后的 SGLD Fixed Point 算法可以有效改善该问题,且与 Langevin Monte Carlo 算法计算成本相比更低,可为该类应用提供参考。
Nov, 2018
本文通过建立黑盒稳定性结果,仅依赖于学习算法的收敛和损失函数最小值周围的几何形态,为收敛到全局最小值的学习算法建立新的泛化界限,适用于满足 Polyak-Lojasiewicz(PL)和二次增长(QG)条件的非凸损失函数以及一些具有线性激活的神经网络,并使用黑盒结果来证明 SGD、GD、RCD 和 SVRG 等优化算法的稳定性在 PL 和强凸设置中具有可拓展性,同时指出存在简单的具有多个局部最小值的神经网络,在 PL 设置下 SGD 稳定,但 GD 不稳定。
Oct, 2017
我们研究了使用固定步长的随机梯度 Langevin 动力学(SGLD)方法的特点及其偏差,并提出了一个修正的 SGLD 方法,在步长的一阶上消除了由于随机梯度方差引起的渐近偏差,并且得到了有限时间偏差、方差和均方误差(MSE)的界限。
Jan, 2015