时间表之外的道路

May, 2024

The Road Less Scheduled

Aaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko...

TL;DR不依赖于优化停止步骤 T 的现有学习率调度比依赖 T 的学习率调度性能更好。我们提出了一种完全避免使用调度的方法，同时在从凸问题到大规模深度学习问题的广泛问题范围内展示了与调度相比的最先进性能。我们的无调度方法与带有动量的标准优化器没有额外的超参数。我们的方法是我们开发的一种新理论的直接结果，该理论统一了调度和迭代平均化。我们的方法的开源实现可在此 URL 找到。

Abstract

Existing learning rate schedules that do not require specification of the optimization stopping step T are greatly out-performed by learning rate schedules that depend on T. We propose an approach that avoids the

learning rate schedules optimization stopping step state-of-the-art performance convex problems large-scale deep learning problems

发现论文，激发创造

何时、为何以及何倍？通过优化改进的自适应学习率调度

学习率调度与优化算法的收敛性分析、学习率预热和调度优化方法的研究。

Oct, 2023

动态步长调度的局部最优下降

我们介绍了一种新颖的动态学习率调度方案，旨在简化实践中手动而耗时的调度。我们的方法基于估计局部最优步长，确保在当前步骤的随机梯度方向上实现最大下降。我们首先在平滑的非凸随机优化环境中建立了我们方法的理论收敛边界，与最新的边界相匹配，仅假设对平滑参数具有知识。然后，我们提出了我们算法的实际实现，并在不同数据集和优化算法上进行系统实验，将我们的方案与现有的最新学习率调度器进行比较。我们的发现表明，与现有方法相比，我们的方法需要最少的调整，消除了辅助手动调度和预热阶段的需要，并实现了具有大大减少参数调整的可比性能。

Nov, 2023

学习自适应学习率调度

本文提出了基于强化学习的框架，通过利用过去训练历史的信息来自动学习自适应学习率调度器，验证实验结果表明，自动学习学习率控制器能够获得更好的测试结果，并且经过训练的控制器网络是可迁移的。

Sep, 2019

MARTHE: 通过在线超梯度调度学习率

本文从超参数优化的角度研究了适应特定任务的学习率进度的拟合问题，并通过介绍超梯度的梯度结构，提出了 MARTHE 算法，它能够使用优化轨迹中的过去信息来模拟未来的行为，从而插值最近的两种技术，从而产生更加稳定、泛化能力更强的学习率进度。

Oct, 2019

优化深度神经网络迭代剪枝学习率调度

本文提出了一种名为 SILO 的改进型学习率优化策略来优化网络剪枝，通过在剪枝理论上给出理论证明，并在各种网络和流行数据集（例如 ImageNet，CIFAR-10 / 100）上进行广泛实验，获得了 2％-4％的性能提升。

Dec, 2022

通过赌博训练深度网络而无需学习率

本文提出一种基于投掷硬币的随机梯度下降（SGD）优化算法，相较于传统方法，该方法不需要任何学习率设置，不适应任何学习率，且在凸函数和拟凸函数中证明了其理论收敛性，并且在实验中优于其他主流 SGD 算法。

May, 2017

AutoLRS: 基于贝叶斯优化的自动学习率调整

该研究提出了一种名为 AutoLRS 的自适应学习率优化方法，使用贝叶斯优化自动调整神经网络中的学习率，能够显著提高训练的效率和准确性。

May, 2021

分形学习率调度加速

本文研究了迭代优化中的学习率问题，在深度学习中提出了一种新的 Chebyshev 学习率调度方式，此方式与分数阶微积分有关，并且此方式可以在出现不稳定更新时保持局部收敛。

Mar, 2021

利用统计学自动化随机优化

提出一种基于统计检验的适应性方法，通过检测随机梯度下降算法的动态变化达到均衡状态后衰减学习率，解决了手动调参的繁琐问题，实现了类似于手动调参的性能并在多个深度学习任务中得到了验证。

Sep, 2019

阶梯衰减策略：一种近似最优、几何下降的最小二乘学习速率过程

这项工作研究了随机梯度下降对于流式最小二乘回归问题的最终迭代行为并探讨使用 Step Decay 调度方案实现可接受的改进，同时发现 SGD 的最终迭代行为不如期望，并强调了随机梯度下降固定时间限制下确定最优学习率方案的复杂性。

Apr, 2019