基于动量的梯度下降方法在李群上的应用

Apr, 2024

基于动量的梯度下降方法在李群上的应用

Momentum-based gradient descent methods for Lie groups

Cédric M. Campos, David Martín de Diego, José Torrente

TL;DR在这篇论文中，我们提出了一种基于经典和加速动量方法之间的变分一对一对应的思想，对列伪群优化进行 Nesterov 类方法的推广，之前文献中主要关注的都是对 Polyak 的 Heavy Ball 方法进行推广，我们的数值实验结果显示了该方法的有效性。

Abstract

polyak's heavy ball (PHB; Polyak, 1964), a.k.a. Classical Momentum, and nesterov's accelerated gradient (NAG; Nesterov, 1983) are well know examples of →

polyak's heavy ball nesterov's accelerated gradient momentum-descent methods lie group optimization variational one-to-one correspondence

发现论文，激发创造

广义动量法：哈密顿视角

采用基于哈密顿视角的方法，将 Nesterov 加速梯度下降法和 Polyak 重球方法泛化为广泛的动量方法，得到了无限制约束的最小化问题的一般性和统一性收敛分析，具有直观的时间变化哈密顿量和守恒量。

Jun, 2019

李群动量优化器的定量收敛性

通过变分优化和动量微化，可以构建优化 Lie 群上定义的函数的显式的基于动量的动力学方法。本文研究了两种离散化方法：Lie Heavy-Ball 和 Lie NAG-SC，分别提供了 L 平滑性和局部强凸性的显式收敛速度。与现有的一般流形加速优化器相比，Lie Heavy-Ball 和 Lie NAG-SC 都计算成本更低、更易实现，因为它们利用了群结构。只需要梯度预言子和指数映射，而不需要计算昂贵的对数映射或平行运输。

May, 2024

关于现有动量方案在随机优化中的不足

本论文通过证明存在简单的问题实例以及提出一种新的基于 Nesterov 的算法，来对现有的快速梯度方法在随机情况下的局限性以及不足进行研究。实验证明，该新算法比常见的方法更具优势。

Mar, 2018

超参数神经网络动量法的高分辨率动态视角

本研究分析了在训练神经网络时，动量法中的 Heavy Ball 和 Nesterov 方法的收敛性差异，通过高分辨率动态系统和神经切向核理论对具有 ReLU 激活函数的过度参数化双层神经网络进行收敛分析。结果显示 Nesterov 方法比 Heavy Ball 方法表现更好，证明了其具有更快的收敛速度，并且通过研究梯度校正项的作用，进一步加速了 Nesterov 的收敛速度。最后，我们在三个基准数据集上验证了我们的理论结果。

Aug, 2022

随机动量方法在 Wasserstein 距离中的加速线性收敛

研究了 Polyak 重球法，Nesterov 加速梯度以及加速投影梯度法等动量方法在梯度噪声情况下的收敛性，证明了其在小于一定噪声上限后仍能保持加速线性速率的收敛性并且提出了步长、动量参数和噪声幅度与加速线性速率之间的关系模型。此外，还对 APG 方法和弱凸函数进行了扩展研究。

Jan, 2019

共形辛几何与相对论优化

本文研究了一类耗散哈密顿系统的结构保存离散化方法及其在机器学习中的应用，包括流行的加速优化算法 Nesterov 及 Polyak's heavy ball 的初步分析和新洞见，同时提出了一种基于耗散相对论系统的新算法可应用于加速优化但规避额外成本

Mar, 2019

随机梯度方法中动量的作用理解

该论文通过使用 QHM 的一般公式来对几种流行的算法进行统一分析，涵盖了它们的渐近收敛条件，稳定区域和其稳态分布的性质，通过结合收敛速度和稳态分布结果，得出了设置学习速率和动量参数的实用指南。

Oct, 2019

当非凸性被平衡时，针对一类 Polyak-Łojasiewicz 函数，可证明重球加速度超越二次项

该研究发展了新技术，能够分析连续两个时间点的 Hessian 变化如何影响收敛速度，从而证明了一类 Polyak-Łojasiewicz 优化问题可以通过引入 Heavy Ball dynamic 来实现证明加速。此外，通过我们的分析还表明了一种自适应设置动量参数的好处。

Jun, 2022

随机梯度、牛顿、近端点和子空间下降方法的动量和随机动量

本文研究了几种被重量球动量丰富的随机优化算法，证明了它们的全局非渐进线性收敛速率，并在稀疏数据环境下提出了随机动量，证明了它对于带有动量的算法有更好的整体复杂度。

Dec, 2017

自适应 Polyak 重球方法中动量参数在最优收敛中的作用

本文旨在解决现实应用中使用随机梯度下降法进行深度学习和凸优化时，普遍使用最后一次迭代作为最终解决方案，但唯独它的可用遗憾分析和恒定动量参数设置只保证平均解的最佳收敛问题，并且探究单独收敛分析问题，最终我们证明了：在约束凸问题中，使用 Polyak's Heavy-ball 方法，它只能通过移动平均策略更新步长，即可获得 O（1 / 根号 T）的最优收敛率，而不是普通 SGD 的 O（log T / 根号 T）的优化。同时，我们的新型分析方法不仅阐释了 HB 动量及其时间变化的作用，还给出了有价值的暗示，即动量参数应如何进行安排。同时，针对优化凸函数和训练深度网络的实证结果，验证了我们收敛分析的正确性，并证明了自适应 HB 方法的改进性能。

Feb, 2021