通过加速梯度方法实现更好的小批量算法

Jun, 2011

通过加速梯度方法实现更好的小批量算法

Better Mini-Batch Algorithms via Accelerated Gradient Methods

Andrew Cotter, Ohad Shamir, Nathan Srebro, Karthik Sridharan

TL;DR通过加速梯度方法，改进小批量算法加速随机凸优化问题，提供新颖分析证明标准梯度法有时不足以获取大幅加速，提出一种新的加速梯度算法，解决了这个缺点，并在实践中表现良好。

Abstract

mini-batch algorithms have been proposed as a way to speed-up stochastic convex optimization problems. We study how such algorithms can be improved using →

mini-batch algorithms stochastic convex optimization accelerated gradient methods speed-up novel analysis

发现论文，激发创造

基于模型的随机优化：加速、优化和并行计算的若干结果

我们扩展了 Approximate-Proximal Point 方法，在随机凸优化问题中应用包括随机次梯度、近端点和束方法，同时提出了更快的模型算法和加速方案，保持了 Approximate-Proximal Point 算法的鲁棒性，同时提供了更快的收敛速度和更低的界限。我们通过实证测试证实了理论结果的可行性。

Jan, 2021

在线到线下转化，普适性和自适应小批量大小

本文提出了一种基于离线方法的凸优化方法，通过查询梯度谐和和的方法实现自适应保证，在平滑和非平滑条件下都能实现快速收敛，同时还可以推广到随机梯度下降算法中，提供了一种根据梯度幅值自适应选择 minibatch 大小的方法。

May, 2017

使用随机梯度下降平滑非凸函数：隐式逐渐优化与最优噪声调度的分析

本文定义了用于 graduated optimization 的一类新的非凸函数，讨论了其充分条件，并对 graduated optimization 算法的收敛性进行了分析。研究发现，带有 mini-batch 随机梯度的随机梯度下降 (SGD) 方法可以使函数平滑的程度由学习率和 batch size 决定。此发现从 graduated optimization 的角度提供了理论洞察，解释了为何大批量大小会陷入尖锐的局部最小值，以及为何逐渐减小的学习率和逐渐增大的批量大小优于固定的学习率和批量大小，并给出了最佳的学习率调度方法。此外，分析了一种新的 graduated optimization 框架，该框架使用逐渐减小的学习率和逐渐增大的批量大小，并报告了支持我们理论发现的图像分类的实验结果。

Nov, 2023

加速随机梯度下降求解有限和最小化

本论文提出了一种优化方法，该方法融合了加速梯度下降、随机方差减少梯度的优点，适用于非强凸和强凸问题，并在效率和收敛速率上都有优异表现。

Jun, 2015

AdaBatch：基于有效渐进聚合规则的序列和并行随机梯度方法

本文研究一种用于 mini-batch 的梯度聚合算子，名为 AdaBatch。该算子可用于随机梯度方法，并在稀疏优化问题中大大加速训练过程，同时在保持样本效率的前提下增加批处理大小。实验显示，在光滑凸优化中，该方法甚至可以在固定样本数量的情况下，通过增加批处理大小获得更低的损失。

Nov, 2017

近端设置下的小批量半随机梯度下降

提出了一种利用小批量方案改进半随机梯度下降（S2GD）方法的 mS2GD，该方法主要用于最小化一个由很多光滑凸函数的平均值和一个简单的非光滑凸正则化器组成的强凸函数，分析表明，该方法在具有小批量效应和简单并行实现方案的情况下，可以加速算法的收敛过程。

Apr, 2015

一种普适最优的多阶段加速随机梯度方法

研究如何在存在梯度估计噪声的情况下，通过使用多阶段加速算法，探讨最小化强凸光滑函数的问题，并通过采用特定的重启和参数选择，实现在确定性和随机情况下的最佳速率，以及在不知道噪声特性的情况下操作。

Jan, 2019

加速随机梯度下降算法用于最小二乘回归

本文研究加速随机梯度方法在最小二乘回归问题中的应用，通过对加速随机梯度下降作为随机过程的深入分析，证明了引入加速能够使其对统计误差具有鲁棒性，并提出了一种优于随机梯度下降的加速随机梯度方法。

Apr, 2017

更优秀的随机优化算法：小批量和插值学习

文中讨论了一种基于随机梯度估计的优化算法，解决了 Lan (2012), Cotter 等人 (2011) 和 Liu 与 Belkin (2018) 所提出的一些局限性，实现了更好的并行加速效率.

Jun, 2021

增强随机梯度下降：更快收敛的统一框架和新的加速方法

基于 SGD，本文提出了一种统一框架来解决随机优化中非凸条件下的收敛分析问题，并发现了两种插入加速方法：拒绝加速和随机向量加速，理论上证明这两种方法可以直接提高收敛速度。

Feb, 2024