SGDR: 带有热重启的随机梯度下降

ICLRAug, 2016

SGDR: Stochastic Gradient Descent with Warm Restarts

Ilya Loshchilov, Frank Hutter

TL;DR本篇论文提出了一种针对随机梯度下降的简单热重启技术，以提高训练深度神经网络的任意性能，并在 CIFAR-10 和 CIFAR-100 数据集上证明了其优越的表现。

Abstract

Restart techniques are common in gradient-free optimization to deal with multimodal functions. Partial warm restarts are also gaining popularity in gradient-based optimization to improve the rate of convergence in accelerated gradient schemes to deal with ill-conditioned functions. In

warm restarts stochastic gradient descent deep neural networks state-of-the-art performance

发现论文，激发创造

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

随机梯度下降中方差与复杂度的权衡

CheapSVRG is proposed as a new stochastic variance-reduction optimization scheme which achieves a linear convergence rate through a surrogate computation while also balancing computational complexity.

Mar, 2016

自适应 SGD 分布式随机优化

本文提出了一种高效的分布式随机优化方法，通过结合适应性与方差约减技术，从而实现任何串行在线学习算法的并行计算，能够在不需要光滑参数的先验知识的情况下实现最优收敛速率，同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。

Feb, 2018

深度神经网络的变分随机梯度下降

将梯度更新建模为概率模型并利用随机变分推断（SVI）推导出一种高效且有效的更新规则，该方法称为变分随机梯度下降（VSGD）优化器，相较于 Adam 和 SGD，VSGD 在两个图像分类数据集和四种深度神经网络结构上表现更优。

Apr, 2024

使用超梯度下降进行在线学习率调整

本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度，通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上，我们展示了该方法在一系列优化问题中的有效性，大大减少了对这些算法的初始学习率进行手动调整的需求；我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率，计算这个 “超梯度” 需要很少的额外计算，只需要将原始梯度的一个额外副本存储在内存中，并且只依靠于反向模式自动微分提供的内容。

Mar, 2017

随机梯度算法的变分分析

本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断，通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架，让 SGD 有效地作为贝叶斯推断的一种方法，发现其可以成为概率模型优化超参数的一种新途径。

Feb, 2016

大规模经验风险最小化的加速双随机梯度算法

本研究提出了一种双重随机算法，使用新的加速多动量技术来解决学习任务中的大规模经验风险最小化问题，各迭代只访问一小批样本和同时更新一小块变量坐标，从而在同时涉及海量样本大小和超高维度时显著减少了内存引用量，实证研究也说明了该方法在实践中的高效性。

Apr, 2023

面向极小化问题：超参数问题 SGD 的快速收敛

本文提出在插值范式内的正则条件，使得随机梯度方法与确定性梯度方法具有相同的最坏迭代复杂度，同时仅在每次迭代中使用单个采样梯度（或一个小批量）。最后，我们证明了我们的条件在训练具有线性输出层的足够宽的前馈神经网络时成立。

Jun, 2023

随机平均梯度：简单实证研究

我们比较了随机平均梯度 (SAG) 与一些经典机器学习优化算法，并提出了将 SAG 与动量算法和 Adam 相结合的方法，这些组合在优化函数时表现出更高的速度和更好的性能。

Jul, 2023

状态依赖噪声的加速随机逼近

本文讨论了一类随机光滑凸优化问题，其噪声的方差与算法产生的近似解的次优性有关，提出了两个非欧几里德加速随机逼近算法，即随机加速梯度下降（SAGD）和随机梯度外推（SGE），并证明了在适当的条件下，这两个算法可以同时达到最优的迭代和样本复杂度。同时本文还提出了应用 SGE 进行恢复稀疏解的方法。

Jul, 2023