批量大小不变的 Adam
本论文提出了动态批次大小自适应方法,通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式,从而消除了先前所述的学习速率降低的需要。与相关工作不同的是,我们的算法将批次大小与学习速率相结合,直接反映了两者之间的已知关系。在流行的图像分类基准测试中,我们的批次大小自适应可以更快地优化收敛,同时简化学习速率调整。
Dec, 2016
通过使用自适应批次大小策略,引入了 AdAdaGrad 和 AdAdaGradNorm,在深度学习中展示了逐步批处理协议的提升适应性以及与自适应梯度优化器结合使用的自适应批次大小策略的潜力。
Feb, 2024
本文提出一种自适应学习率原则,通过将 Adam 中的平方梯度的运行平均替换为加权平均来实现。该方法比解决 Adam 中不稳定或过大的自适应学习率的 AMSGrad 和 AdaBound 等方法更有效,在机器翻译,自然语言理解和大批量预训练 BERT 方面展现出更理想的收敛行为。
Jun, 2020
这篇论文介绍了一种新颖的随机梯度下降法 (SGD) 的改进方法,称为 AdaBatchGrad。该方法通过集成自适应步长和可调整批大小,提高了 SGD 的收敛性和稳定性。通过实验证明,引入自适应步长和批大小大大提高了正常 SGD 的性能,使得 AdaBatchGrad 方法在非精确测试中表现更好。
Feb, 2024
Adam-mini 是一个优化器,通过减少内存占用量(相较于 AdamW 减少了 45%至 50%)来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用,使用预定义参数块中 $v$ 的平均值作为该块的学习率。通过在各种语言模型上进行实证验证,我们发现 Adam-mini 在预训练、监督微调和增强学习等方面显示出与 AdamW 相当或更好的性能,同时还减少了通信开销,并提高了吞吐量。
Jun, 2024
本文研究一种用于 mini-batch 的梯度聚合算子,名为 AdaBatch。该算子可用于随机梯度方法,并在稀疏优化问题中大大加速训练过程,同时在保持样本效率的前提下增加批处理大小。实验显示,在光滑凸优化中,该方法甚至可以在固定样本数量的情况下,通过增加批处理大小获得更低的损失。
Nov, 2017
本文提出了通过修改网络结构,使其缩放不变,并使用 SGD 和权重衰减进行训练的通用方法,并证明了此方法不仅可以实现稳健的训练,还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本,其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。
Feb, 2022
AdaScale SGD 是一种可靠地适应大批量训练学习率的算法,通过不断调整梯度方差,可以实现在宽范围的批量大小下加速训练。在机器翻译,图像分类,目标检测和语音识别任务中,它可以处理大批量训练,而不会降低模型质量,因为 AdaScale 的收敛性边界可以保持最终目标值,即使批量大小增加,迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数,因此是实现大规模训练的有吸引力的选择。
Jul, 2020
该论文提出了一种基于行和列之和的移动平均数的方法,用于估计神经网络权重矩阵的参数,并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。
Apr, 2018