为什么随机重洗超越随机梯度下降

Oct, 2015

为什么随机重洗超越随机梯度下降

Why Random Reshuffling Beats Stochastic Gradient Descent

Mert Gürbüzbalaban, Asuman Ozdaglar, Pablo Parrilo

TL;DR本文研究了随机重洗方法的收敛速率，表明在特定条件下随机重洗方法通过迭代平均和逐渐缩小的步长可以以概率一的方式在优化目标值的次优性上以 $\Theta (1/k^{2s})$ 的速率收敛，从而改善了 SGD 的 $\Omega (1/k)$ 收敛速率。

Abstract

We analyze the convergence rate of the random reshuffling (RR) method, which is a randomized first-order incremental algorithm for minimizing a finite sum of convex component functions. RR proceeds in cycles, picking a uniformly random order (permutation) and processing the component f

random reshuffling method convergence rate quadratics strongly convex iterate averaging

发现论文，激发创造

随机重排：简单分析，显著提高

该研究探讨了利用随机重排来压缩有限和函数的算法 ——Random Reshuffling。该算法在凸优化和非凸优化中很有实用性，并且通常比随机梯度下降更快。研究者通过理论和实验表明，新的方差类型为 RR 的卓越性能提供了额外的理论依据。此外，他们还展示了 Shuffle-Once 算法的快速收敛性，并进一步提出了多种适用于非强凸和非凸目标的算法。他们的理论优于现有文献，同时也揭示了在某些情况下，随机变量的不同类型可能产生更大的影响。

Jun, 2020

随机重排的高概率保证

我们考虑了应对平滑非凸优化问题的具有随机重排特性的随机梯度方法，通过研究其样本复杂度和下降特性，我们提出了一个简单可行的停止准则，并设计了一个扰动随机重排方法，可以有效地避开严格的鞍点并返回一个具有二阶停滞点的迭代解。

Nov, 2023

超参数化情况下随机重排的快速收敛及 Polyak-Łojasiewicz 条件

研究了过度参数化的机器学习模型，提出了抽样无替换的 SGD 变体 - random reshuffling-，并证明了在一些假设条件下，它可以比 SGD 更快地收敛。此外，对于 Polyak-L ojasiewicz (PL) 函数类问题，当样本数小于条件数与参数之积或小于参数的强增长条件时，证明了 random reshuffling 优于 SGD。

Apr, 2023

近端和联邦随机重洗

本篇论文提出两种新的优化算法：ProxRR 和 FedRR，应用于分布式问题的改进。这些算法在收敛性和计算复杂度方面具有明显优势，并在重要的最优化任务中发挥出色。

Feb, 2021

有限轮数后，随机重洗优于随机梯度下降

本论文首次提出了证明随机梯度下降算法的 RandomShuffle 版本在 “合理” 迭代次数后，比常规的有替换版本更快收敛的非相态解决方法。同时，论文还探讨了该问题在强凸性、稀疏数据和非强凸梯度主导函数等方面的推广。

Jun, 2018

关于随机梯度方法的最终迭代收敛性

用 “随机梯度下降”（SGD）而无需替换的 “洗牌梯度方法”，基于曲率刻画关于目标值的收敛速度，证明其对于目标值的最优性。

Mar, 2024

随机重排的恒定步长随机学习

本文研究了常数步长情况下强凸损失函数的随机梯度算法，在收敛时随机重排比均匀抽样性能更优，通过分析表明了迭代值到达最小值的邻域范围更小，证明了随机重排算法的性能更好，同时解释了随机重排算法实现中观察到的周期性行为。

Mar, 2018

带洗牌的 SGD: 无需分量凸性和大的 epoch 要求的最优速率

本文研究了无替换 SGD 算法在有限和优化问题上的应用及其两种不同的指标洗牌方式（RandomShuffle 和 SingleShuffle）。作者们建立了这些算法的最小二次理论下的优化收敛率。此外，作者们进一步应用了各自分量的凸性来缩小 RandomShuffle 的宽松收敛结果，并减少了所有先前艺术品中共有的缺点。

Jun, 2020

改进的分布式随机重排方法

本文提出了两种分布式随机重排方法，分别是随机重排梯度追踪 (GT-RR) 和带随机重排的精确扩散 (ED-RR)，用于解决连接网络上的分布式优化问题，并在理论上和实践中都优化了以前的分布式随机重排算法的性能。

Jun, 2023

Shuffle SGD 总是比 SGD 更好：对任意数据顺序的 SGD 的改进分析

该论文研究了随机梯度下降算法在非凸优化问题中的迭代次数，发现采用随机 / 单扰动的随机梯度下降算法的收敛速度要快于经典的随机梯度下降算法，实验证明其具有更好的性能。

May, 2023