大学习率提高泛化性能：我们所讨论的是多大的学习率？

Nov, 2023

大学习率提高泛化性能：我们所讨论的是多大的学习率？

Large Learning Rates Improve Generalization: But How Large Are We Talking About?

Ekaterina Lobacheva, Eduard Pockonechnyy, Maxim Kodryan, Dmitry Vetrov

TL;DR基于最近的研究建议使用较大的学习率（LRs）来进行神经网络训练以获得最佳泛化效果，我们详细研究了这一假设，并明确了提供后续小学习率或权重平均训练的最佳结果的初始 LR 范围，发现这些范围实际上比通常假设的范围显著窄，我们在一个简化的设置中进行主要实验以精确控制学习率超参数，并在更实际的环境中验证了我们的关键发现。

Abstract

Inspired by recent research that recommends starting neural networks training with large learning rates (LRs) to achieve the best generalization<

neural networks training learning rates generalization initial lr ranges weight averaging

发现论文，激发创造

关于初始大学习率在神经网络训练中正则化作用的解释

通过大学习率 SGD 与 Annealing 方案推出二层神经网络；结果表明，相比小学习率模型，它更好地推广了不容易泛化的模式，并通过实验演示使用 CIFAR-10 图像说明了该概念。

Jul, 2019

晚期学习率衰减的泛化优势理解

神经网络在大学习率和长时间训练的情况下为什么通常能够更好地泛化？本文通过分析神经网络中训练和测试误差之间的关系，探讨这个问题。通过对这些误差进行可视化，我们发现大学习率的训练轨迹穿越了训练误差的极小值流形，最终接近测试误差的最小值附近。在这些发现的启发下，我们引入了一个非线性模型，其损失曲线反映了真实神经网络的情况。通过在我们的模型上使用随机梯度下降法进行训练，我们证明了使用大学习率的延长阶段可以将我们的模型引向训练误差的最小规范解，从而实现接近最优泛化效果，证实了后期学习速率衰减的经验观察优势。

Jan, 2024

有效学习率的扩展：早期训练中批量归一化的风险

本文研究了深度规范化 ReLU 网络的早期训练阶段，并通过研究有效学习率（LR）来解释梯度流的影响，发现使用大 LR 类似于对非线性 ODE 应用显式求解器，在第一步后导致底层出现过振荡和梯度消失，因此在深度，LR 和动量（可选）上需要进行精细调整，以保持总体平衡。

Jun, 2023

深度神经网络高准确率训练的学习率政策解析

本文基于 LRBench 系统对 13 种学习率函数以及相应的学习率策略进行研究，提出了一组评估和选择学习率策略的度量标准，包括分类置信度、方差、成本和鲁棒性，表明 LRBench 辅助用户选择好的学习率策略，避免训练深度神经网络时出现不良策略。

Aug, 2019

训练更长时间，泛化更好：在神经网络的大批量训练中缩小泛化差距

该论文研究了大批量训练中的一般化差距现象，并提出一种名为 “Ghost Batch Normalization” 的新算法，可显著减少一般化差距而不增加权重更新数量。

May, 2017

深度学习的大学习率阶段：弹射机制

本文研究了学习速率对深度神经网络性能的影响，提出了一种具有可解训练动态的神经网络类，并在实际深度学习环境中验证了其预测，发现小学习率相当于传统理论下的无穷宽神经网络，而大学习率相当于梯度下降动态收敛到更平坦的极小值点，模型中预测的大而稳定的学习率范围得到了验证，同时发现在大学习率下模型性能优越。

Mar, 2020

重新思考泛化对于了解深度学习至关重要

该研究通过系统实验和理论构建发现，传统方法很难解释为什么大型神经网络的泛化性能良好，即使加入正则化仍然不会改变随机标记训练数据的状态，因为只要参数数量超过数据点数量，简单的两层神经网络就能实现完美的有限样本表达能力。

Nov, 2016

大批量训练自动学习率调度器

本文提出了一种有效的 LR 调试算法，其中包括自适应的预热和预定义的衰减，通过高斯过程平滑的在线检查方法可以有效地训练具有大批次大小的神经网络。

Jul, 2021

重新审视深度神经网络的小批量训练

本文研究了基于小批量样本随机梯度优化的现代深度神经网络训练中，不同批量大小对测试性能和泛化性能的影响，并指出使用小批量训练可以提供更稳定和可靠的结果。

Apr, 2018

学习率退火可以证明帮助泛化，即使对于凸问题

本研究发现调整学习率档位可以显著影响神经网络的推广性能，并在二维线性回归等凸优化问题中验证了其存在性。研究进一步表明，使用学习率预热（大初始学习率，接着小学习率）可以导致比始终使用小学习率更好的推广性能，这可能是由于训练集和测试集的不匹配以及提前停止的组合造成的。

May, 2020