随机梯度下降法的效果如何？

Jul, 2019

How Good is SGD with Random Shuffling?

Itay Safran, Ohad Shamir

TL;DR本研究探讨了随机梯度下降在平滑和强凸有限和优化问题上的性能，重点研究了包含在个体函数的随机排列中的启发式方法，给出了这些启发式方法的期望优化误差的下界，说明了它们的优势和劣势。

Abstract

We study the performance of stochastic gradient descent (SGD) on smooth and strongly-convex finite-sum optimization problems. In contrast to the majority of existing theoretical works, which assume that individua

stochastic gradient descent optimization heuristics lower bounds reshuffling

发现论文，激发创造

有限轮数后，随机重洗优于随机梯度下降

本论文首次提出了证明随机梯度下降算法的 RandomShuffle 版本在 “合理” 迭代次数后，比常规的有替换版本更快收敛的非相态解决方法。同时，论文还探讨了该问题在强凸性、稀疏数据和非强凸梯度主导函数等方面的推广。

Jun, 2018

带洗牌的 SGD: 无需分量凸性和大的 epoch 要求的最优速率

本文研究了无替换 SGD 算法在有限和优化问题上的应用及其两种不同的指标洗牌方式（RandomShuffle 和 SingleShuffle）。作者们建立了这些算法的最小二次理论下的优化收敛率。此外，作者们进一步应用了各自分量的凸性来缩小 RandomShuffle 的宽松收敛结果，并减少了所有先前艺术品中共有的缺点。

Jun, 2020

随机重排的恒定步长随机学习

本文研究了常数步长情况下强凸损失函数的随机梯度算法，在收敛时随机重排比均匀抽样性能更优，通过分析表明了迭代值到达最小值的邻域范围更小，证明了随机重排算法的性能更好，同时解释了随机重排算法实现中观察到的周期性行为。

Mar, 2018

Shuffle SGD 总是比 SGD 更好：对任意数据顺序的 SGD 的改进分析

该论文研究了随机梯度下降算法在非凸优化问题中的迭代次数，发现采用随机 / 单扰动的随机梯度下降算法的收敛速度要快于经典的随机梯度下降算法，实验证明其具有更好的性能。

May, 2023

Primal-Dual 视角下的洗牌 SGD 经验风险最小化及改进界限

本文围绕随机梯度下降 (SGD) 优化方法，在经验风险最小化的线性预测器上，利用原始 - 对偶视角对 SGD 进行了分析，并证明了一种细粒度复杂度界的方法，以数据矩阵为基础，证明了它比现有的复杂度界更加紧密地预测了 SGD 的性能。

Jun, 2023

为什么随机重洗超越随机梯度下降

本文研究了随机重洗方法的收敛速率，表明在特定条件下随机重洗方法通过迭代平均和逐渐缩小的步长可以以概率一的方式在优化目标值的次优性上以 $\Theta (1/k^{2s})$ 的速率收敛，从而改善了 SGD 的 $\Omega (1/k)$ 收敛速率。

Oct, 2015

关于随机梯度方法的最终迭代收敛性

用 “随机梯度下降”（SGD）而无需替换的 “洗牌梯度方法”，基于曲率刻画关于目标值的收敛速度，证明其对于目标值的最优性。

Mar, 2024

非替换式 SGD 的排序

本文探讨了基于随机排序和增量梯度下降算法收敛率的不同速度，找到一种可以提高算法非替代形式的收敛率的排序方式，通过实验数据验证了基于这种排序方式的一些优化想法在多个数据集上的效果以及在更复杂的神经网络上的应用前景。

Jun, 2023

用于凸优化的 Shuffling Momentum Gradient 算法

本文通过对分类的动量渐变法的分析，对有限和强凸优化问题进行了研究，并取得了与现有文献中最好成绩相匹配的结果。

Mar, 2024

随机重排：简单分析，显著提高

该研究探讨了利用随机重排来压缩有限和函数的算法 ——Random Reshuffling。该算法在凸优化和非凸优化中很有实用性，并且通常比随机梯度下降更快。研究者通过理论和实验表明，新的方差类型为 RR 的卓越性能提供了额外的理论依据。此外，他们还展示了 Shuffle-Once 算法的快速收敛性，并进一步提出了多种适用于非强凸和非凸目标的算法。他们的理论优于现有文献，同时也揭示了在某些情况下，随机变量的不同类型可能产生更大的影响。

Jun, 2020