AdaS：自适应调度随机梯度

Jun, 2020

AdaS: Adaptive Scheduling of Stochastic Gradients

Mahdi S. Hosseini, Konstantinos N. Plataniotis

TL;DR本文提出了一种名为 “自适应调度” 的算法，该算法利用奇异值得出的两个指标 “知识增益” 和 “映射条件”，并将 SGD 学习率与知识增益的变化率成比例地调整，实验表明该算法具有更快的收敛速度和更好的泛化性能。

Abstract

The choice of step-size used in stochastic gradient descent (SGD) optimization is empirically selected in most training procedures. Moreover, the use of scheduled learning techniques such as Step-Decaying, Cyclical-Learning, and Warmup to tune the step-size requires extensive practical

stochastic gradient descent deep neural networks adaptive scheduling knowledge gain mapping condition

发现论文，激发创造

分布式深度学习的同步异步随机梯度下降算法

本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Nov, 2015

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020

深度学习随机一阶方法的逐层自适应步长

我们提出了一种新的逐层自适应步长过程，用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题，并且实验证明这种方法比 fine-tuned 学习率的方法以及一些常见的一阶或二阶优化方法更有效。

May, 2023

学习率自适应的随机梯度下降优化方法：深度学习偏微分方程数值模拟与收敛分析

我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法，用于随机梯度下降优化方法，并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。

Jun, 2024

指数和余弦步长的再审视：简易性、适应性和性能

研究指出指数步长和余弦步长是自适应噪声水平的，不需要知道噪声水平和调整超参数就可以达到几乎最佳性能。探讨了这两种优化策略的收敛速度和表现，实验证明它们最多只需要调整两个超参数就可达到优秀的表现。

Feb, 2020

大规模机器学习问题的随机比率跟踪算法

本文提出了一种适应性步长选择的算法，基于传统的非线性优化技术，通过分析结果表明，该算法可生成与手动调节最佳步长相当的步长，并产生期望收敛于解的固定邻域的迭代。

May, 2023

面向噪声自适应、问题自适应（加速）随机梯度下降

通过利用指数步长和随机线性搜索等技术，使得随机梯度下降算法适应不同噪声水平和问题相关的常数，可以在强凸函数的条件下，取得与理论最优相近的收敛速度，同时能够有效地处理噪声和数据不凸的情况。

Oct, 2021

ADASECANT：用于随机梯度的鲁棒自适应割线法

本文介绍一种新的自适应学习率算法，该算法利用曲率信息自动调整学习率，并提出一种新的方差缩减技术来加速收敛。在深度神经网络的初步实验中，与常见的随机梯度算法相比获得了更好的性能。

Dec, 2014

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

通过步长规划方法学习加速

本文介绍了一种名为 Csawg 的新方法，它使用更新经验来学习改进的参数更新方式，并且使用步长规划的方式加速 Gradient Descent 在 ill-conditioned 和 non-convex 问题中的收敛速度。在经过实验验证后，我们的方法获得了比 Nesterov 加速 Gradient 更快的收敛速度，并且在 Rosenbrock 函数的测试中取得了比 Gradient Descent 更快和更准确的收敛效果。

Apr, 2022