优化学习率和批次大小缩放中的涌现现象

May, 2024

优化学习率和批次大小缩放中的涌现现象

Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling

Shuaipeng Li, Penghao Zhao, Hailin Zhang, Xingwu Sun, Hao Wu...

TL;DRAdam style 优化器中，最佳学习率和批量大小之间存在一种缩放规律，通过理论分析和实验验证了这种规律。

Abstract

In current deep learning tasks, adam style optimizers such as Adam, Adagrad, RMSProp, Adafactor, and Lion have been widely used as alterna

deep learning optimizers adam style learning rate batch size

发现论文，激发创造

将自适应批量大小与学习率相结合

本论文提出了动态批次大小自适应方法，通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式，从而消除了先前所述的学习速率降低的需要。与相关工作不同的是，我们的算法将批次大小与学习速率相结合，直接反映了两者之间的已知关系。在流行的图像分类基准测试中，我们的批次大小自适应可以更快地优化收敛，同时简化学习速率调整。

Dec, 2016

AdAdaGrad：自适应梯度方法的自适应批次大小方案

通过使用自适应批次大小策略，引入了 AdAdaGrad 和 AdAdaGradNorm，在深度学习中展示了逐步批处理协议的提升适应性以及与自适应梯度优化器结合使用的自适应批次大小策略的潜力。

Feb, 2024

SGD 超参数在自然训练中如何影响对抗鲁棒性？

通过实验观察 SGD 算法中学习率、batch size 和 momentum 三个重要超参数对神经网络训练精度及对抗鲁棒性的影响，并发现固定学习率和 batch size 比例的训练方式可以获得更好的泛化能力与保持较为稳定的抗干扰性能。

Jun, 2020

不要减小学习率，增加批量大小

通过增加批量大小来训练深度神经网络中，测试集和训练集的学习曲线可以达到相同结果，可以获得更高的并行性和更少的参数更新，同时无需超参数调整。

Nov, 2017

利用连续时间控制和摄动理论解锁最佳批处理大小日程

我们推导了随机梯度下降和类似算法的最优批次大小计划，通过近似离散参数更新过程为一族随机微分方程，进而使用学习率展开进行优化处理。我们应用这些结果于线性回归任务中。

Dec, 2023

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020

具有动态学习率上界的自适应梯度方法

本文提出了 AdaBound 和 AMSBound 两种新型变体算法，通过采用动态的学习率边界来实现自适应方法与 SGD 方法之间的平稳过渡，证明了它们的收敛性，并在各种任务和模型上进行了充分的实验，结果表明这两种方法可以消除自适应方法与 SGD 之间的 “普适 - 泛化” 差距，同时在训练初期保持更高的学习速度和取得显著的改进表现。

Feb, 2019

AdaBatch：用于训练深度神经网络的自适应批量大小

本研究发展一种新的训练方法，在训练过程中自适应地增加 batch size，以达到小 batch size 的收敛速率和大 batch size 的性能表现。实验结果表明，在多个网络模型中，采用自适应 batch size 训练能够显著提高算法性能，同时精度变化不超过 1％。

Dec, 2017

随机梯度下降中影响最小值的三个因素

探讨了随机梯度下降应用于深度神经网络时的动态收敛特性及其与学习率、批大小等因素对最终解的影响关系，发现学习率与批大小之比是影响 SGD 动态和解宽度的关键决定因素，并得出比值越高，解越宽且一般具有更好的泛化性能的结论。

Nov, 2017

随机梯度下降漫步

我们研究了随机梯度下降在超参数化深度神经网络的损失面上如何导航，发现学习率和批量大小在深度神经网络优化和泛化中具有不同的作用，并且 ' 在高度上在墙之间弹跳 ' 机制对于泛化至关重要。

Feb, 2018