使用敌对式训练和二阶信息进行神经网络的大批量训练
本研究发展一种新的训练方法,在训练过程中自适应地增加 batch size,以达到小 batch size 的收敛速率和大 batch size 的性能表现。实验结果表明,在多个网络模型中,采用自适应 batch size 训练能够显著提高算法性能,同时精度变化不超过 1%。
Dec, 2017
本研究提出使用对抗学习 (adversarial learning) 技术来增加大批量训练 (large-batch training) 的批量大小,以克服随着批量大小的增加而降低的数据增强表现的问题,并通过 Concurrent Adversarial Learning (ConAdv) 方法来解决对抗学习中的时间成本问题,在 ImageNet ResNet-50 训练中成功将批量大小扩展到 96K,并在保持高精度的同时大幅提高了模型的训练效率。
Jun, 2021
本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用,证明了通过采用新的学习率调整规则和温暖启动方法,大批量训练可以克服优化难题,取得和小批量相同的精度,实现了在支持多达 256 个 GPU 的硬件上,在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。
Jun, 2017
该研究比较了同步和异步随机梯度下降的收敛性,针对 ImageNet 分类问题的训练,在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛,而同步 SGD 在 100 个节点以下能更好地扩展。
Nov, 2016
AdaScale SGD 是一种可靠地适应大批量训练学习率的算法,通过不断调整梯度方差,可以实现在宽范围的批量大小下加速训练。在机器翻译,图像分类,目标检测和语音识别任务中,它可以处理大批量训练,而不会降低模型质量,因为 AdaScale 的收敛性边界可以保持最终目标值,即使批量大小增加,迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数,因此是实现大规模训练的有吸引力的选择。
Jul, 2020
通过实验观察 SGD 算法中学习率、batch size 和 momentum 三个重要超参数对神经网络训练精度及对抗鲁棒性的影响,并发现固定学习率和 batch size 比例的训练方式可以获得更好的泛化能力与保持较为稳定的抗干扰性能。
Jun, 2020
本文介绍了一种采用自适应 “大数据块” 随机梯度下降方案的方法,以维持梯度逼近的信噪比的稳定,从而实现自动学习率选择和避免步长衰减,并且不需要目标函数凸性的限制。
Oct, 2016
研究增加小批量大小以减少神经网络训练时间所面临的挑战,并通过广泛的经验分析得出,增加批量大小超过一定点对于训练或测试损失的收敛时间没有减少,而这一点通常低于当前系统的容量,说明常用的大批量优化训练策略在无法充分利用所有可用的计算资源之前就会失败。
Nov, 2018