这篇论文介绍了一种新颖的随机梯度下降法 (SGD) 的改进方法,称为 AdaBatchGrad。该方法通过集成自适应步长和可调整批大小,提高了 SGD 的收敛性和稳定性。通过实验证明,引入自适应步长和批大小大大提高了正常 SGD 的性能,使得 AdaBatchGrad 方法在非精确测试中表现更好。
Feb, 2024
本文研究一种用于 mini-batch 的梯度聚合算子,名为 AdaBatch。该算子可用于随机梯度方法,并在稀疏优化问题中大大加速训练过程,同时在保持样本效率的前提下增加批处理大小。实验显示,在光滑凸优化中,该方法甚至可以在固定样本数量的情况下,通过增加批处理大小获得更低的损失。
Nov, 2017
本文提出了一种更新梯度下降步长的方法:AdaGrad-Norm,不需要微调步长计划,对于光滑的非凸函数具有收敛性,并具备健壮性
Jun, 2018
AdaScale SGD 是一种可靠地适应大批量训练学习率的算法,通过不断调整梯度方差,可以实现在宽范围的批量大小下加速训练。在机器翻译,图像分类,目标检测和语音识别任务中,它可以处理大批量训练,而不会降低模型质量,因为 AdaScale 的收敛性边界可以保持最终目标值,即使批量大小增加,迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数,因此是实现大规模训练的有吸引力的选择。
Jul, 2020
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度,并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。
Feb, 2022
本论文提出了动态批次大小自适应方法,通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式,从而消除了先前所述的学习速率降低的需要。与相关工作不同的是,我们的算法将批次大小与学习速率相结合,直接反映了两者之间的已知关系。在流行的图像分类基准测试中,我们的批次大小自适应可以更快地优化收敛,同时简化学习速率调整。
Dec, 2016
本研究发展一种新的训练方法,在训练过程中自适应地增加 batch size,以达到小 batch size 的收敛速率和大 batch size 的性能表现。实验结果表明,在多个网络模型中,采用自适应 batch size 训练能够显著提高算法性能,同时精度变化不超过 1%。
Dec, 2017
通过在大批量设置下对 Adagrad 进行新分析,证明了它在凸平滑目标和非凸平滑目标上不会因批量大小增加而收敛减慢,因此在大批量设置中仍然可以比 SGD 更快地实现收敛,进而解决了理论和实践之间的差距。
Jun, 2024
本文介绍了一种采用自适应 “大数据块” 随机梯度下降方案的方法,以维持梯度逼近的信噪比的稳定,从而实现自动学习率选择和避免步长衰减,并且不需要目标函数凸性的限制。
Oct, 2016
本文提出一种新方法,通过优化预期改进的线性或二次泰勒近似的下界与用于估计梯度的样本数量之间的比率来自动确定随机梯度下降方法中的批量大小,以解决梯度估计准确性和更新成本之间的折衷关系,并通过在流行的分类任务上与相关方法进行实证比较来评估其性能。