随机动量方法在凸和非凸优化中的统一收敛分析

Apr, 2016

随机动量方法在凸和非凸优化中的统一收敛分析

Unified Convergence Analysis of Stochastic Momentum Methods for Convex and Non-convex Optimization

Tianbao Yang, Qihang Lin, Zhe Li

TL;DR该论文针对随机动量法在非凸优化领域中的收敛性分析不足，通过对两种随机动量法（随机重球法和随机版 Nesterov 加速梯度法）的基本收敛性分析，提出了一种统一框架，展示了它们与随机梯度法之间的相似性和差异性，并在深度学习的测试误差收敛行为中解释了连续变化现象。同时，对深度神经网络的优化实验结果表明，随机版 Nesterov 加速梯度法在训练误差收敛速度和测试误差收敛鲁棒性方面取得了很好的平衡。

Abstract

Recently, {\it stochastic momentum} methods have been widely adopted in training deep neural networks. However, their convergence analysis

stochastic momentum convergence analysis stochastic heavy-ball method stochastic nesterov's accelerated gradient method deep neural networks

发现论文，激发创造

深度学习随机动量方法的统一分析

本文研究随机动量方法，包含随机梯度法（SG），随机重球方法（SHB）和随机 Nesterov's 加速梯度方法（SNAG）。我们提出了一个框架，统一了这三种方法，并通过一致稳定性方法推导了梯度范数的收敛速率和推导了非凸优化问题。同时，我们也分别分析了这三个方法的收敛率和泛化性能。研究结果表明，动量项可以提高学习模型的稳定性和泛化性能。

Aug, 2018

随机梯度、牛顿、近端点和子空间下降方法的动量和随机动量

本文研究了几种被重量球动量丰富的随机优化算法，证明了它们的全局非渐进线性收敛速率，并在稀疏数据环境下提出了随机动量，证明了它对于带有动量的算法有更好的整体复杂度。

Dec, 2017

带动量的随机梯度方法收敛于非光滑非凸优化问题

本文介绍了一种随机子梯度方法，该方法结合了动量项，能够在一类广泛意义下的非光滑、非凸和受约束的优化问题中建立一个特殊的李亚普诺夫函数，实现快速收敛。

Feb, 2020

具向异性梯度噪声的随机重力球法加速收敛

本文通过建立随机重球方法在二次目标函数和异性梯度噪声条件下的非渐近收敛界，证明了重球动量可以在 SGD 的偏差项上提供加速收敛，同时与随机方差项相比，仍然能够实现接近最优的收敛速度，从而在统计极小化速度的对数因素范围内整体收敛，该结果意味着带有重球动量的 SGD 在大批量设置中（例如分布式机器学习或联邦学习）中非常有用，其中更少的迭代次数可以显著减少通信轮数，进而加速实践计算。

Dec, 2023

随机梯度方法中动量的作用理解

该论文通过使用 QHM 的一般公式来对几种流行的算法进行统一分析，涵盖了它们的渐近收敛条件，稳定区域和其稳态分布的性质，通过结合收敛速度和稳态分布结果，得出了设置学习速率和动量参数的实用指南。

Oct, 2019

广义动量法：哈密顿视角

采用基于哈密顿视角的方法，将 Nesterov 加速梯度下降法和 Polyak 重球方法泛化为广泛的动量方法，得到了无限制约束的最小化问题的一般性和统一性收敛分析，具有直观的时间变化哈密顿量和守恒量。

Jun, 2019

用于凸优化的 Shuffling Momentum Gradient 算法

本文通过对分类的动量渐变法的分析，对有限和强凸优化问题进行了研究，并取得了与现有文献中最好成绩相匹配的结果。

Mar, 2024

非光滑非凸优化中随机次梯度方法的收敛性保证

本研究论文探讨了随机梯度下降（SGD）方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质，提出了一种新的框架，分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下，我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的 SGD 类型方法，包括 heavy-ball SGD、SignSGD、Lion、normalized SGD 和 clipped SGD。此外，当目标函数采用有限和形式时，我们证明了基于我们提出的框架的这些 SGD 类型方法的收敛性质。特别地，在温和的假设条件下，我们证明了这些 SGD 类型方法以随机选择的步长和初始点找到了目标函数的 Clarke 稳定点。初步的数值实验表明了我们分析的 SGD 类型方法的高效性。

Jul, 2023

自适应带动量的 SGD 高概率分析

本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析，证明了在弱假设条件下，Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。

Jul, 2020

关于 Nesterov 加速梯度方法在随机设置下的收敛性

研究了 Nesterov 加速梯度方法在随机逼近和有限和设置下的表现，发现使用通常的步长和动量参数，该方法在后者可能发散，进而阐明了这种方法在此情况下可能失败的原因。

Feb, 2020