动态批量适应
基于随机梯度下降的算法用于训练深度神经网络,但通常收敛速度较慢。为了解决这个挑战,我们利用交替方向乘子法(ADMM)的框架开发了一种新的数据驱动算法,称为批量 ADMM(BADM)。该算法的基本思想是将训练数据划分为批次,进一步将其分成子批次,在此过程中通过聚合更新原始和对偶变量以生成全局参数。我们评估了 BADM 在各种深度学习任务中的性能,包括图建模、计算机视觉、图像生成和自然语言处理。广泛的数值实验表明,与其他先进优化器相比,BADM 实现了更快的收敛速度和优越的测试准确性。
Jun, 2024
通过研究我们发现 delta-bar-delta 算法在神经网络优化过程中存在收敛问题,并提出了一种新方法 RDBD(可悔的 delta-bar-delta)来解决这些问题,并验证了其在小批量优化中克服收敛问题并提高优化算法收敛速度的有效性和效率。
Oct, 2023
这篇论文介绍了一种新颖的随机梯度下降法 (SGD) 的改进方法,称为 AdaBatchGrad。该方法通过集成自适应步长和可调整批大小,提高了 SGD 的收敛性和稳定性。通过实验证明,引入自适应步长和批大小大大提高了正常 SGD 的性能,使得 AdaBatchGrad 方法在非精确测试中表现更好。
Feb, 2024
本文提出了一种称为自适应批量归一化(AdaBN)的方法来提高深度神经网络的泛化能力,无需额外组件或参数,并证明其在领域适应任务和现有方法相结合时具有卓越的性能表现。
Mar, 2016
提出了一种名为 ADADELTA 的针对梯度下降的每维学习率的新方法,该方法仅使用一阶信息在时间上动态自适应,除了香草随机梯度下降之外几乎没有计算开销,并且不需要手动调整学习率,且与嘈杂的渐变信息、不同的模型架构选择、各种数据形态和超参数的选择都表现出鲁棒性,在 MNIST 数字分类任务上使用单个机器并在分布式群集环境中使用大规模语音数据集展示出与其他方法相比令人期待的结果。
Dec, 2012
本文提出一种新方法,通过优化预期改进的线性或二次泰勒近似的下界与用于估计梯度的样本数量之间的比率来自动确定随机梯度下降方法中的批量大小,以解决梯度估计准确性和更新成本之间的折衷关系,并通过在流行的分类任务上与相关方法进行实证比较来评估其性能。
Dec, 2017
AdaScale SGD 是一种可靠地适应大批量训练学习率的算法,通过不断调整梯度方差,可以实现在宽范围的批量大小下加速训练。在机器翻译,图像分类,目标检测和语音识别任务中,它可以处理大批量训练,而不会降低模型质量,因为 AdaScale 的收敛性边界可以保持最终目标值,即使批量大小增加,迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数,因此是实现大规模训练的有吸引力的选择。
Jul, 2020
这篇研究探讨了深度神经网路的随机非凸优化方法中,通过在线选择 “分组数据量”(Batch)来加速学习的策略,提出了一种基于最新数据偏差排名的算法,并在 MNIST 数据集上实验证明,可以加速 AdaDelta 和 Adam 等方法的学习效率。
Nov, 2015
本论文提出了动态批次大小自适应方法,通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式,从而消除了先前所述的学习速率降低的需要。与相关工作不同的是,我们的算法将批次大小与学习速率相结合,直接反映了两者之间的已知关系。在流行的图像分类基准测试中,我们的批次大小自适应可以更快地优化收敛,同时简化学习速率调整。
Dec, 2016
本研究发展一种新的训练方法,在训练过程中自适应地增加 batch size,以达到小 batch size 的收敛速率和大 batch size 的性能表现。实验结果表明,在多个网络模型中,采用自适应 batch size 训练能够显著提高算法性能,同时精度变化不超过 1%。
Dec, 2017