批量大小不变的 Adam

Feb, 2024

Batch size invariant Adam

PDF

Xi Wang, Laurence Aitchison

TL;DR提出了一种批量大小不变的 Adam 版本，用于大规模分布式环境，在这种环境中，小批量被分割成微批次并在工作节点之间分配。

Abstract

We propose a batch size invariant version of adam, for use in large-scale, →

batch size invariant adam large-scale distributed settings micro-batch

发现论文，激发创造

将自适应批量大小与学习率相结合

本论文提出了动态批次大小自适应方法，通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式，从而消除了先前所述的学习速率降低的需要。与相关工作不同的是，我们的算法将批次大小与学习速率相结合，直接反映了两者之间的已知关系。在流行的图像分类基准测试中，我们的批次大小自适应可以更快地优化收敛，同时简化学习速率调整。

Dec, 2016

AdAdaGrad：自适应梯度方法的自适应批次大小方案

通过使用自适应批次大小策略，引入了 AdAdaGrad 和 AdAdaGradNorm，在深度学习中展示了逐步批处理协议的提升适应性以及与自适应梯度优化器结合使用的自适应批次大小策略的潜力。

Feb, 2024

MaxVA：通过最大化梯度观测方差快速调整步长

本文提出一种自适应学习率原则，通过将 Adam 中的平方梯度的运行平均替换为加权平均来实现。该方法比解决 Adam 中不稳定或过大的自适应学习率的 AMSGrad 和 AdaBound 等方法更有效，在机器翻译，自然语言理解和大批量预训练 BERT 方面展现出更理想的收敛行为。

Jun, 2020

AdaBatchGrad: 组合自适应批量大小和自适应步长

这篇论文介绍了一种新颖的随机梯度下降法 (SGD) 的改进方法，称为 AdaBatchGrad。该方法通过集成自适应步长和可调整批大小，提高了 SGD 的收敛性和稳定性。通过实验证明，引入自适应步长和批大小大大提高了正常 SGD 的性能，使得 AdaBatchGrad 方法在非精确测试中表现更好。

Feb, 2024

Adam-mini: 更少的学习率，取得更多的收益

Adam-mini 是一个优化器，通过减少内存占用量（相较于 AdamW 减少了 45％至 50％）来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用，使用预定义参数块中 $v$ 的平均值作为该块的学习率。通过在各种语言模型上进行实证验证，我们发现 Adam-mini 在预训练、监督微调和增强学习等方面显示出与 AdamW 相当或更好的性能，同时还减少了通信开销，并提高了吞吐量。

Jun, 2024

AdaBatch：基于有效渐进聚合规则的序列和并行随机梯度方法

本文研究一种用于 mini-batch 的梯度聚合算子，名为 AdaBatch。该算子可用于随机梯度方法，并在稀疏优化问题中大大加速训练过程，同时在保持样本效率的前提下增加批处理大小。实验显示，在光滑凸优化中，该方法甚至可以在固定样本数量的情况下，通过增加批处理大小获得更低的损失。

Nov, 2017

使用尺度不变架构强化神经网络训练

本文提出了通过修改网络结构，使其缩放不变，并使用 SGD 和权重衰减进行训练的通用方法，并证明了此方法不仅可以实现稳健的训练，还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本，其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。

Feb, 2022

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020

Adafactor：自适应学习率与亚线性内存成本

该论文提出了一种基于行和列之和的移动平均数的方法，用于估计神经网络权重矩阵的参数，并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。

Apr, 2018

优化学习率和批次大小缩放中的涌现现象

Adam style 优化器中，最佳学习率和批量大小之间存在一种缩放规律，通过理论分析和实验验证了这种规律。

May, 2024