随机平均梯度下降法最小化有限和

MMSep, 2013

随机平均梯度下降法最小化有限和

Minimizing Finite Sums with the Stochastic Average Gradient

Mark Schmidt, Nicolas Le Roux, Francis Bach

TL;DR本文提出了基于随机平均梯度方法的优化算法，它克服了黑匣子随机梯度方法的缺点，具有更快的收敛速度和更少的梯度评估数量。实验表明，该算法在许多情况下都优于现有的随机梯度方法和确定性梯度方法，并且可以通过非均匀采样策略进一步提高表现。

Abstract

We propose the stochastic average gradient (SAG) method for optimizing the sum of a finite number of smooth convex functions. Like stochastic gradient (SG) methods, the SAG method's iteration cost is independent of the number of terms in the sum. However, by incorporating a

stochastic average gradient method optimization smooth convex functions memory convergence rate

发现论文，激发创造

随机平均梯度：简单实证研究

我们比较了随机平均梯度 (SAG) 与一些经典机器学习优化算法，并提出了将 SAG 与动量算法和 Adam 相结合的方法，这些组合在优化函数时表现出更高的速度和更好的性能。

Jul, 2023

加速随机梯度下降求解有限和最小化

本论文提出了一种优化方法，该方法融合了加速梯度下降、随机方差减少梯度的优点，适用于非强凸和强凸问题，并在效率和收敛速率上都有优异表现。

Jun, 2015

一种简单实用的有限和加速方法

该研究提出了一种针对小批量优化问题的新优化方法 SAGA，通过引入一种步长参数，在强凸光滑问题上获得了加速收敛率，同时应用于分割算子方法难以解决的许多领域。

Feb, 2016

非光滑优化的随机梯度下降：收敛结果与最优平均方案

本文探讨了在没有光滑假设的情况下，以及通过运行平均方案将 SGD 迭代转换为具有最佳优化精度的解决方案的性能，并证明了对于凸非光滑目标函数，最后一个 SGD 迭代的次优性的程度随 T 的轮次按 O（log（T）/sqrt（T））缩放，对于非光滑强凸情况，次优性的程度随 T 按 O（log（T）/ T）缩放。此外，本文提出了一种新的简单平均方案，并提供了一些实验说明。

Dec, 2012

轻量级随机优化方法用于最小化包含无限数据的有限和

本研究提出了两种基于随机梯度下降的算法 (即随机样本平均梯度 (SSAG) 和随机 SAGA (S-SAGA))，以解决使用随机噪声来影响数据集时的期望风险最小化问题，其中 SSAG 收敛速度比 SGD 快，而 S-SAGA 在迭代复杂度和存储方面均优于 S-MISO，并且 SSAG 的存储成本不依赖样本大小，而 S-SAGA 的存储成本与未被扰动的数据上的方差降低方法相同。

Jun, 2018

去中心化非凸优化的快速随机增量梯度方法

该论文研究了关于具有本地数据样本批量的节点网络的分散式非凸有限和最小化问题，并提出了一种名为 GT-SAGA 的单时间尺度随机增量梯度法，通过利用节点级方差、网络级梯度跟踪等手段优化它的性能，这种方法在特定条件下起到了优于现有方法性能的作用，该文对此进行了详细分析。

Nov, 2020

状态依赖噪声的加速随机逼近

本文讨论了一类随机光滑凸优化问题，其噪声的方差与算法产生的近似解的次优性有关，提出了两个非欧几里德加速随机逼近算法，即随机加速梯度下降（SAGD）和随机梯度外推（SGE），并证明了在适当的条件下，这两个算法可以同时达到最优的迭代和样本复杂度。同时本文还提出了应用 SGE 进行恢复稀疏解的方法。

Jul, 2023

SCSG 方法求解非凸有限和优化问题

开发了基于 Stochastically Controlled Stochastic Gradient Method 的算法，可用于非凸的有限和优化问题，并取得了优于随机梯度下降的表现。在满足 Polyak-Lojasiewicz Condition 约束的函数中，同样实现了加速优化，实验表明在训练多层神经网络方面，该方法优于随机梯度下降。

Jun, 2017

任意采样的 SAGA

通过提出一种新的 SAGA 变体，并构建新的随机 Lyapunov 函数，我们展示了一种通用和灵活的方法，可用于训练监督学习模型中极大数量的平滑函数之和的平均值的最小化问题，这种方法可以包括任意的重要性抽样和小批量处理方法，并展示了该方法的迭代复杂度分析和平滑和强凸情形下的线性收敛率，从而在对于有限总和问题的原始 / 对偶方法的复杂性的理解上迈出了重要一步。

Jan, 2019

一种带有指数收敛速率的随机梯度方法，适用于有限训练集

本文提出了一个新的随机梯度方法用于优化一组平滑函数的和，其中和是强凸的。与标准随机梯度方法在这个问题上的次线性收敛相比，该方法通过记忆之前的梯度值来实现线性收敛率。在机器学习的背景下，数值实验表明，该方法可以明显优于标准算法，不仅在优化训练误差方面，而且可以快速降低测试误差。

Feb, 2012