大批量训练自动学习率调度器

ICMLJul, 2021

Automated Learning Rate Scheduler for Large-batch Training

Chiheon Kim, Saehoon Kim, Jongmin Kim, Donghoon Lee, Sungwoong Kim

TL;DR本文提出了一种有效的 LR 调试算法，其中包括自适应的预热和预定义的衰减，通过高斯过程平滑的在线检查方法可以有效地训练具有大批次大小的神经网络。

Abstract

large-batch training has been essential in leveraging large-scale datasets and models in deep learning. While it is computationally beneficial to use large batch sizes, it often requires a specially designed learning rate (LR) schedule to achieve a comparable level of performance as in

large-batch training neural network learning rate schedule adaptive warmup stochastic optimizers

发现论文，激发创造

AutoLRS: 基于贝叶斯优化的自动学习率调整

该研究提出了一种名为 AutoLRS 的自适应学习率优化方法，使用贝叶斯优化自动调整神经网络中的学习率，能够显著提高训练的效率和准确性。

May, 2021

学习自适应学习率调度

本文提出了基于强化学习的框架，通过利用过去训练历史的信息来自动学习自适应学习率调度器，验证实验结果表明，自动学习学习率控制器能够获得更好的测试结果，并且经过训练的控制器网络是可迁移的。

Sep, 2019

何时、为何以及何倍？通过优化改进的自适应学习率调度

学习率调度与优化算法的收敛性分析、学习率预热和调度优化方法的研究。

Oct, 2023

循环对数退火作为学习率调度器

学习率调度器是在模型训练过程中变化搜索步长的预定指令集。本文介绍了一种新的对数方法，通过随机梯度下降对步长进行严格的重新启动。循环对数退火更积极地实施重新启动模式，可能在在线凸优化框架上允许更贪婪的算法的使用。该算法在 CIFAR-10 图像数据集上进行了测试，并表现出与余弦退火在大型变压器增强残差神经网络上类似的性能。未来的实验将涉及在生成对抗网络中测试调度器，并通过更多实验找到调度器的最佳参数。

Mar, 2024

深度神经网络高准确率训练的学习率政策解析

本文基于 LRBench 系统对 13 种学习率函数以及相应的学习率策略进行研究，提出了一组评估和选择学习率策略的度量标准，包括分类置信度、方差、成本和鲁棒性，表明 LRBench 辅助用户选择好的学习率策略，避免训练深度神经网络时出现不良策略。

Aug, 2019

深度学习随机一阶方法的逐层自适应步长

我们提出了一种新的逐层自适应步长过程，用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题，并且实验证明这种方法比 fine-tuned 学习率的方法以及一些常见的一阶或二阶优化方法更有效。

May, 2023

LSTM 和更多模型的大批量训练

本文提出了一种新的线性逐渐预热的方法（LEGW），此方法可以在大批量 CNN 和 RNN 训练中实现 sqrt scaling scheme，同时不会丢失精度，并实现比之前的自动调整技术更好的表现，提高了四个基于 LSTM 的应用程序的平均速度。

Jan, 2019

优化深度神经网络迭代剪枝学习率调度

本文提出了一种名为 SILO 的改进型学习率优化策略来优化网络剪枝，通过在剪枝理论上给出理论证明，并在各种网络和流行数据集（例如 ImageNet，CIFAR-10 / 100）上进行广泛实验，获得了 2％-4％的性能提升。

Dec, 2022

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020

深度学习大批量优化：76 分钟训练 BERT

本文提出了一个新的基于分层自适应学习率的大批量优化技术 ——LAMB，主要用于加速深度神经网络训练。在各种任务（如 BERT 和 ResNet-50）中，LAMB 的表现优于现有算法，特别是在 BERT 训练中，我们的优化器能够实现 32868 的大批量大小，将训练时间从 3 天缩短至 76 分钟。

Apr, 2019