关于 Nesterov 加速梯度方法在随机设置下的收敛性
通过研究表明,在现代机器学习中,采用具有极高表现力的模型进行训练,可以实现完全拟合或内插数据,从而得到零训练损失。我们证明,采用恒定步长随机梯度下降法(SGD)与 Nesterov 加速法具有相同的收敛速度,适用于凸和强凸函数。同时,我们发现,SGD 可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后,我们通过对合成和真实数据集的实验验证了我们的理论发现。
Oct, 2018
本文介绍了一种名为 MaSS 的算法,它使用与 SGD 相同的步长,但具有比 SGD 更快的加速收敛速度。该算法解决了 Nesterov SGD 的不收敛问题,并分析了收敛速度和最优超参数对于 mini-batch size 的依赖性。实验结果表明,MaSS 算法在多个深度网络架构中均表现出比 SGD、Nesterov SGD 和 Adam 更优秀的性能。
Oct, 2018
我们在插值条件下证明了随机 Nesterov 加速的新的收敛速度。不同于以往的分析,我们的方法可以加速任何在期望中取得足够进展的随机梯度方法。证明使用估计序列框架进行,适用于凸函数和强凸函数,并且可以轻松推广到满足强生长条件的加速 SGD。在这种特殊情况下,我们的分析将强生长常数的依赖性从 ρ 减小到√ρ,相对于以前的工作来说,这一改进相当于最坏情况下条件数的平方根,并解决了对于随机加速的保证可能不如 SGD 的批评。
Apr, 2024
本文研究加速随机梯度方法在最小二乘回归问题中的应用,通过对加速随机梯度下降作为随机过程的深入分析,证明了引入加速能够使其对统计误差具有鲁棒性,并提出了一种优于随机梯度下降的加速随机梯度方法。
Apr, 2017
本文提出了一种具有 Nesterov 加速梯度的随机(在线)拟牛顿方法,用于解决神经网络中的大规模非凸优化问题,结果表明其性能优于传统的二阶 oBFGS 和 oLBFGS 方法以及常用的一阶随机梯度方法,还在不同的动量率和批处理大小下进行了说明。
Sep, 2019
基于 SGD,本文提出了一种统一框架来解决随机优化中非凸条件下的收敛分析问题,并发现了两种插入加速方法:拒绝加速和随机向量加速,理论上证明这两种方法可以直接提高收敛速度。
Feb, 2024
本文提出一类新的目标函数,其中只有参数的一个子集满足强凸性,并证明 Nesterov 的动量在这个目标类上实现了加速收敛,其中包括用于深度 ReLU 网络的两种实现方法,这是第一篇证明非平凡神经网络结构加速收敛率的论文。
Jun, 2023
研究了动量随机梯度法在常数步长和慢适应区域的收敛速度和均方误差性能,结果表明动量方法相当于具有重新缩放(更大)步长值的标准随机梯度法,重新缩放的大小由动量参数的值确定。分析适用于一般的强凸和光滑风险函数,而不限于二次风险,发现动量构建在确定性优化问题中的优点并不一定适用于小常数步长的自适应在线设置中,以使根据持续的梯度噪声进行连续适应和学习。模拟结果表明,动量和标准随机梯度方法在非可微和非凸问题中也是等价的。
Mar, 2016
本文提出了连续 Nesterov 加速法,将 Nesterov 加速法的变量用连续时间参数索引,使两个变量连续混合,其间隔时间内随机进行梯度步骤。我们证明了该变体具有与 Nesterov 原始加速法相似的收敛率,并且具有连续和离散框架的最佳性能。我们展示了连续 Nesterov 加速法在随机 / 确定梯度及其噪声下的应用,并将异步 gossip 算法的问题表示为某种能量函数的随机最小化问题,提供了第一个基于该连续框架的异步 gossip 加速定理。
Jun, 2021
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的 SGD 类型方法,包括 heavy-ball SGD、SignSGD、Lion、normalized SGD 和 clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些 SGD 类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些 SGD 类型方法以随机选择的步长和初始点找到了目标函数的 Clarke 稳定点。初步的数值实验表明了我们分析的 SGD 类型方法的高效性。
Jul, 2023