自适应预处理随机梯度 Langevin 动力学
本文介绍一种新的自适应学习率算法,该算法利用曲率信息自动调整学习率,并提出一种新的方差缩减技术来加速收敛。在深度神经网络的初步实验中,与常见的随机梯度算法相比获得了更好的性能。
Dec, 2014
使用加权运输成本不等式来量化SGLD在欧几里得2-瓦瑟斯坦距离下收敛到随机分布的速率,并在非凸学习问题的背景下提供有限时间保证来找到两种风险的近似最小化器。
Feb, 2017
本文研究了随机梯度 Langevin 动力学(SGLD)算法,针对非凸优化问题,注入适当缩放的高斯噪声来更新参数,我们分析了算法达到参数空间任意子集的的命中时间,从理论上得出结论:对于经验风险最小化,如果经验风险在点值上接近于(平滑的)总体风险,则该算法在多项式时间内实现了总体风险的近似局部最小值,逃离仅存在于经验风险的次优局部最小值。同时,我们还展示了SGLD如何改进学习零一损失下线性分类器的已知最佳学习结果之一。
Feb, 2017
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本论文提出了一种称为轮廓随机梯度Langevin动力学(CSGLD)的自适应加权随机梯度Langevin动力学算法,用于Bayesian学习在大数据的统计学中。该算法在多模态分布的模拟中具有很大的优势,并测试了CIFAR10和CIFAR100的性能。
Oct, 2020
本文研究了低精度随机梯度Langevin动力学(SGLD)和其量化方法在深度学习中的应用,发现低精度梯度累积器通过新开发的量化函数可以实现较少的成本和可比的性能。
Jun, 2022
本文提出了一种基于最优先决条件的 Langevin 扩散优化方法,使用 Fisher 信息协方差矩阵作为最优先决条件,通过一种自适应 MCMC 方法从目标函数的梯度历史中学习先决条件,实现了在高维数据中的高效数据采样与处理。
May, 2023
提出了一种新的方法,通过利用从海森矩阵向量积或参数和梯度的有限差分得到的曲率信息,类似于BFGS算法,加速随机梯度下降(SGD)。该方法涉及两个预条件器:一个矩阵无关的预条件器和一个低秩近似预条件器。我们使用一种对随机梯度噪声稳健且不需要线性搜索或阻尼的标准在线更新两个预条件器。为了保持相应的对称性或不变性,我们将预条件器约束为某些连通的李群。李群的等变性质简化了预条件器拟合过程,而其不变性质消除了通常在二阶优化器中需要的阻尼需求。因此,参数更新的学习率和预条件器拟合的步长在自然数值化,它们的默认值在大多数情况下都能很好地工作。我们的方法为提高SGD的收敛速度提供了一个有希望的方向,且计算开销较低。我们证明,在多个现代深度学习架构上,基于预条件的SGD(PSGD)在视觉,自然语言处理和强化学习任务上优于SoTA。本文提供了复现玩具和大规模实验的代码。
Feb, 2024
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的SGD优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024