AdAdaGrad：自适应梯度方法的自适应批次大小方案

Feb, 2024

AdAdaGrad：自适应梯度方法的自适应批次大小方案

AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods

Tim Tsz-Kit Lau, Han Liu, Mladen Kolar

TL;DR通过使用自适应批次大小策略，引入了 AdAdaGrad 和 AdAdaGradNorm，在深度学习中展示了逐步批处理协议的提升适应性以及与自适应梯度优化器结合使用的自适应批次大小策略的潜力。

Abstract

The choice of batch sizes in stochastic gradient optimizers is critical for model training. However, the practice of varying batch sizes throughout the training process is less explored compared to other hyperpar

batch sizes adaptive batch size strategies adadagrad adagrad adaptive gradient optimizers

发现论文，激发创造

AdaBatchGrad: 组合自适应批量大小和自适应步长

这篇论文介绍了一种新颖的随机梯度下降法 (SGD) 的改进方法，称为 AdaBatchGrad。该方法通过集成自适应步长和可调整批大小，提高了 SGD 的收敛性和稳定性。通过实验证明，引入自适应步长和批大小大大提高了正常 SGD 的性能，使得 AdaBatchGrad 方法在非精确测试中表现更好。

Feb, 2024

AdaBatch：基于有效渐进聚合规则的序列和并行随机梯度方法

本文研究一种用于 mini-batch 的梯度聚合算子，名为 AdaBatch。该算子可用于随机梯度方法，并在稀疏优化问题中大大加速训练过程，同时在保持样本效率的前提下增加批处理大小。实验显示，在光滑凸优化中，该方法甚至可以在固定样本数量的情况下，通过增加批处理大小获得更低的损失。

Nov, 2017

AdaGrad 步长：在非凸景观上的尖锐收敛

本文提出了一种更新梯度下降步长的方法：AdaGrad-Norm，不需要微调步长计划，对于光滑的非凸函数具有收敛性，并具备健壮性

Jun, 2018

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020

SGD 中的自适应能力：无界梯度和仿射方差下的自调步长

本研究旨在研究基于观察的随机梯度的步长的变化，以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度，并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度，同时不需要任何调整参数。

Feb, 2022

将自适应批量大小与学习率相结合

本论文提出了动态批次大小自适应方法，通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式，从而消除了先前所述的学习速率降低的需要。与相关工作不同的是，我们的算法将批次大小与学习速率相结合，直接反映了两者之间的已知关系。在流行的图像分类基准测试中，我们的批次大小自适应可以更快地优化收敛，同时简化学习速率调整。

Dec, 2016

AdaBatch：用于训练深度神经网络的自适应批量大小

本研究发展一种新的训练方法，在训练过程中自适应地增加 batch size，以达到小 batch size 的收敛速率和大 batch size 的性能表现。实验结果表明，在多个网络模型中，采用自适应 batch size 训练能够显著提高算法性能，同时精度变化不超过 1％。

Dec, 2017

Adagrad 在各向异性光滑下的大批量分析

通过在大批量设置下对 Adagrad 进行新分析，证明了它在凸平滑目标和非凸平滑目标上不会因批量大小增加而收敛减慢，因此在大批量设置中仍然可以比 SGD 更快地实现收敛，进而解决了理论和实践之间的差距。

Jun, 2024

自适应批处理大小的自动推理：大批量 SGD

本文介绍了一种采用自适应 “大数据块” 随机梯度下降方案的方法，以维持梯度逼近的信噪比的稳定，从而实现自动学习率选择和避免步长衰减，并且不需要目标函数凸性的限制。

Oct, 2016

梯度下降批量大小调整的代价敏感方法

本文提出一种新方法，通过优化预期改进的线性或二次泰勒近似的下界与用于估计梯度的样本数量之间的比率来自动确定随机梯度下降方法中的批量大小，以解决梯度估计准确性和更新成本之间的折衷关系，并通过在流行的分类任务上与相关方法进行实证比较来评估其性能。

Dec, 2017