用于凸优化的 Shuffling Momentum Gradient 算法

Mar, 2024

用于凸优化的 Shuffling Momentum Gradient 算法

Shuffling Momentum Gradient Algorithm for Convex Optimization

Trang H. Tran, Quoc Tran-Dinh, Lam M. Nguyen

TL;DR本文通过对分类的动量渐变法的分析，对有限和强凸优化问题进行了研究，并取得了与现有文献中最好成绩相匹配的结果。

Abstract

The stochastic gradient descent method (SGD) and its stochastic variants have become methods of choice for solving finite-sum optimization problems arising from machine learning and data science thanks to their a

stochastic gradient descent finite-sum optimization problems shuffling momentum variants convex and strongly convex optimization problems convergence rate

发现论文，激发创造

SMG: 具有动量的洗牌梯度方法

本文提出了一种结合了 shuffling 策略和 momentum 技术的新算法 SMG，用于解决非凸有限和优化问题，其达到了最先进的收敛速度，同时提出另一新算法与现有的 momentum 算法具有相同的收敛速度，在标准的 $L$-smoothness 和有界变差下具有良好的表现。

Nov, 2020

自适应带动量的 SGD 高概率分析

本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析，证明了在弱假设条件下，Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。

Jul, 2020

深度学习随机动量方法的统一分析

本文研究随机动量方法，包含随机梯度法（SG），随机重球方法（SHB）和随机 Nesterov's 加速梯度方法（SNAG）。我们提出了一个框架，统一了这三种方法，并通过一致稳定性方法推导了梯度范数的收敛速率和推导了非凸优化问题。同时，我们也分别分析了这三个方法的收敛率和泛化性能。研究结果表明，动量项可以提高学习模型的稳定性和泛化性能。

Aug, 2018

一种针对洗牌式梯度方法的统一收敛分析

本文提出了一种适用于解决有限和优化问题的通用洗牌型梯度方法的统一收敛分析，涵盖了许多已知的变体，并在非凸和凸设置中提出了新的非渐近和渐近收敛速度。

Feb, 2020

随机动量方法在凸和非凸优化中的统一收敛分析

该论文针对随机动量法在非凸优化领域中的收敛性分析不足，通过对两种随机动量法（随机重球法和随机版 Nesterov 加速梯度法）的基本收敛性分析，提出了一种统一框架，展示了它们与随机梯度法之间的相似性和差异性，并在深度学习的测试误差收敛行为中解释了连续变化现象。同时，对深度神经网络的优化实验结果表明，随机版 Nesterov 加速梯度法在训练误差收敛速度和测试误差收敛鲁棒性方面取得了很好的平衡。

Apr, 2016

带动量的随机梯度方法收敛于非光滑非凸优化问题

本文介绍了一种随机子梯度方法，该方法结合了动量项，能够在一类广泛意义下的非光滑、非凸和受约束的优化问题中建立一个特殊的李亚普诺夫函数，实现快速收敛。

Feb, 2020

随机梯度下降与动量的改进分析

本文介绍了 SGD 与 momentum (SGDM) 对于光滑目标在强凸和非凸背景下的收敛速度，并确证了多阶段策略对于 SGDM 的好处，并通过数值实验验证了理论结论。

Jul, 2020

非替换式 SGD 的排序

本文探讨了基于随机排序和增量梯度下降算法收敛率的不同速度，找到一种可以提高算法非替代形式的收敛率的排序方式，通过实验数据验证了基于这种排序方式的一些优化想法在多个数据集上的效果以及在更复杂的神经网络上的应用前景。

Jun, 2023

随机梯度、牛顿、近端点和子空间下降方法的动量和随机动量

本文研究了几种被重量球动量丰富的随机优化算法，证明了它们的全局非渐进线性收敛速率，并在稀疏数据环境下提出了随机动量，证明了它对于带有动量的算法有更好的整体复杂度。

Dec, 2017

随机动量法快速逃脱鞍点

本研究探讨了随机动量梯度下降（stochastic momentum）算法在深度神经网络训练中的作用，提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明，$eta$ 应该接近 1，这与实验结果一致。

Jun, 2021