本文介绍了一种采用自适应 “大数据块” 随机梯度下降方案的方法,以维持梯度逼近的信噪比的稳定,从而实现自动学习率选择和避免步长衰减,并且不需要目标函数凸性的限制。
Oct, 2016
通过使用自适应批次大小策略,引入了 AdAdaGrad 和 AdAdaGradNorm,在深度学习中展示了逐步批处理协议的提升适应性以及与自适应梯度优化器结合使用的自适应批次大小策略的潜力。
Feb, 2024
本文提出了一种更新梯度下降步长的方法:AdaGrad-Norm,不需要微调步长计划,对于光滑的非凸函数具有收敛性,并具备健壮性
Jun, 2018
本文研究一种用于 mini-batch 的梯度聚合算子,名为 AdaBatch。该算子可用于随机梯度方法,并在稀疏优化问题中大大加速训练过程,同时在保持样本效率的前提下增加批处理大小。实验显示,在光滑凸优化中,该方法甚至可以在固定样本数量的情况下,通过增加批处理大小获得更低的损失。
Nov, 2017
本研究通过非渐进性分析,探讨具有偏倚梯度和自适应步长的随机梯度下降算法,包括时间依赖的偏倚和梯度估计器的均方误差控制,结果表明带偏倚梯度的 Adagrad 和 RMSProp 算法收敛速率与无偏情况下的结果相似,实验结果进一步验证了收敛性,并展示了通过适当的超参数调整可以减少偏倚影响的能力。
分析了 AdaGrad 在随机非凸优化中收敛速率,证明了存在优于 SGD 的收敛速度,并给出了收敛速率的上界和下界。
Jun, 2024
这篇论文介绍了一种新颖的随机梯度下降法 (SGD) 的改进方法,称为 AdaBatchGrad。该方法通过集成自适应步长和可调整批大小,提高了 SGD 的收敛性和稳定性。通过实验证明,引入自适应步长和批大小大大提高了正常 SGD 的性能,使得 AdaBatchGrad 方法在非精确测试中表现更好。
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度,并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。
Feb, 2022
通过研究广义 AdaGrad 步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现 O(1/T)到 O(1 / 根号 T)的插值(带有对数项)。
May, 2018
AdaScale SGD 是一种可靠地适应大批量训练学习率的算法,通过不断调整梯度方差,可以实现在宽范围的批量大小下加速训练。在机器翻译,图像分类,目标检测和语音识别任务中,它可以处理大批量训练,而不会降低模型质量,因为 AdaScale 的收敛性边界可以保持最终目标值,即使批量大小增加,迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数,因此是实现大规模训练的有吸引力的选择。
Jul, 2020