优化学习率和批次大小缩放中的涌现现象
本论文提出了动态批次大小自适应方法,通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式,从而消除了先前所述的学习速率降低的需要。与相关工作不同的是,我们的算法将批次大小与学习速率相结合,直接反映了两者之间的已知关系。在流行的图像分类基准测试中,我们的批次大小自适应可以更快地优化收敛,同时简化学习速率调整。
Dec, 2016
通过使用自适应批次大小策略,引入了 AdAdaGrad 和 AdAdaGradNorm,在深度学习中展示了逐步批处理协议的提升适应性以及与自适应梯度优化器结合使用的自适应批次大小策略的潜力。
Feb, 2024
通过实验观察 SGD 算法中学习率、batch size 和 momentum 三个重要超参数对神经网络训练精度及对抗鲁棒性的影响,并发现固定学习率和 batch size 比例的训练方式可以获得更好的泛化能力与保持较为稳定的抗干扰性能。
Jun, 2020
我们推导了随机梯度下降和类似算法的最优批次大小计划,通过近似离散参数更新过程为一族随机微分方程,进而使用学习率展开进行优化处理。我们应用这些结果于线性回归任务中。
Dec, 2023
AdaScale SGD 是一种可靠地适应大批量训练学习率的算法,通过不断调整梯度方差,可以实现在宽范围的批量大小下加速训练。在机器翻译,图像分类,目标检测和语音识别任务中,它可以处理大批量训练,而不会降低模型质量,因为 AdaScale 的收敛性边界可以保持最终目标值,即使批量大小增加,迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数,因此是实现大规模训练的有吸引力的选择。
Jul, 2020
本文提出了 AdaBound 和 AMSBound 两种新型变体算法,通过采用动态的学习率边界来实现自适应方法与 SGD 方法之间的平稳过渡,证明了它们的收敛性,并在各种任务和模型上进行了充分的实验,结果表明这两种方法可以消除自适应方法与 SGD 之间的 “普适 - 泛化” 差距,同时在训练初期保持更高的学习速度和取得显著的改进表现。
Feb, 2019
本研究发展一种新的训练方法,在训练过程中自适应地增加 batch size,以达到小 batch size 的收敛速率和大 batch size 的性能表现。实验结果表明,在多个网络模型中,采用自适应 batch size 训练能够显著提高算法性能,同时精度变化不超过 1%。
Dec, 2017
探讨了随机梯度下降应用于深度神经网络时的动态收敛特性及其与学习率、批大小等因素对最终解的影响关系,发现学习率与批大小之比是影响 SGD 动态和解宽度的关键决定因素,并得出比值越高,解越宽且一般具有更好的泛化性能的结论。
Nov, 2017
我们研究了随机梯度下降在超参数化深度神经网络的损失面上如何导航,发现学习率和批量大小在深度神经网络优化和泛化中具有不同的作用,并且 ' 在高度上在墙之间弹跳 ' 机制对于泛化至关重要。
Feb, 2018