本研究发展一种新的训练方法,在训练过程中自适应地增加 batch size,以达到小 batch size 的收敛速率和大 batch size 的性能表现。实验结果表明,在多个网络模型中,采用自适应 batch size 训练能够显著提高算法性能,同时精度变化不超过 1%。
Dec, 2017
研究增加小批量大小以减少神经网络训练时间所面临的挑战,并通过广泛的经验分析得出,增加批量大小超过一定点对于训练或测试损失的收敛时间没有减少,而这一点通常低于当前系统的容量,说明常用的大批量优化训练策略在无法充分利用所有可用的计算资源之前就会失败。
Nov, 2018
本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用,证明了通过采用新的学习率调整规则和温暖启动方法,大批量训练可以克服优化难题,取得和小批量相同的精度,实现了在支持多达 256 个 GPU 的硬件上,在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。
Jun, 2017
本研究提出一种新型的深度学习算法,该算法利用高误差 mini-batch 学习聚焦于欠表示的样本和复杂模式,并在多个公认数据集上测试,表明其相对于传统 mini-batch 训练方法能够显著提高测试准确性和加速收敛。
Apr, 2023
本文提出了一种后局部随机梯度下降(SGD)方法,并通过标准基准测试表明,相比大批量训练,该方法显著提高了模型的泛化性能,同时保持相同的效率和可扩展性。此外,本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。
Aug, 2018
本文介绍了一种新的大批量训练算法:LARS,该算法采用分层自适应速率缩放,可使得尽管使用大批量训练,Alexnet 和 Resnet-50 的准确性不会降低。
Aug, 2017
本文研究使用仅依赖梯度的统计量 (gradient noise scale) 来预测各种深度学习模型中最适合的 batch size 的大小,结果表明该参数可以在很多领域都适用,包括监督学习数据、强化学习领域以及生成模型训练。
Dec, 2018
本论文提出了动态批次大小自适应方法,通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式,从而消除了先前所述的学习速率降低的需要。与相关工作不同的是,我们的算法将批次大小与学习速率相结合,直接反映了两者之间的已知关系。在流行的图像分类基准测试中,我们的批次大小自适应可以更快地优化收敛,同时简化学习速率调整。
Dec, 2016
本研究在教师 - 学生模型下,以不同复杂度的任务为研究对象,探究了小批量训练方式对两层神经网络学习的影响。结果发现,小批量大小对学生的泛化性能有显著影响,当小批量大小小于阈值时,学生无法学习;而当小批量大小大于阈值时,学生可以完美学习或非常好地泛化至教师。此外,发现通过改变小批量大小可以引起相变,也带出了有关超参数的重要问题。
May, 2023
该论文研究了大批量训练中的一般化差距现象,并提出一种名为 “Ghost Batch Normalization” 的新算法,可显著减少一般化差距而不增加权重更新数量。
May, 2017