闪电般的 ImageNet/ResNet-50 训练:大规模分布式 SGD
通过优化方法,我们使用 ABCI 集群上的 2048 个 GPU,在 74.7 秒内实现了高达 1.73 百万张图像 / 秒的训练吞吐量和 75.08%的 top-1 验证准确性,解决了分布式深度学习中大规模集群高伸缩性和高准确性的挑战。
Mar, 2019
提出了一个用于 GPU 集群的高度可扩展的深度学习训练系统,其中包括采用混合精度训练的方法、优化极大 mini-batch size 的方法、采用高度优化的全约约算法等,这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。
Jul, 2018
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018
本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用,证明了通过采用新的学习率调整规则和温暖启动方法,大批量训练可以克服优化难题,取得和小批量相同的精度,实现了在支持多达 256 个 GPU 的硬件上,在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。
Jun, 2017
使用大批量大小的训练技术,如 RMSprop 预热、批量归一化等方法,我们成功地在 15 分钟内使用 1024 个 Tesla P100 GPU 在 ImageNet 数据集上对 ResNet-50 进行了 90 轮训练,并在此过程中保持了准确性。
Nov, 2017
本文探讨了在 petaflop 级超级计算机上训练 ResNet-50 的挑战和新解决方案,最终展示了高达 90%的扩展效率和 28 分钟的训练时间。同时介绍了 Collapsed Ensemble (CE) 技术,使得在相同的固定训练预算下,使用未修改的 ResNet-50 拓扑结构可以获得高达 77.5%的准确率,类似于 ResNet-152。
Nov, 2017
该研究比较了同步和异步随机梯度下降的收敛性,针对 ImageNet 分类问题的训练,在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛,而同步 SGD 在 100 个节点以下能更好地扩展。
Nov, 2016
设计并实现了一种分布式多节点同步的 SGD 算法,通过在不改变超参数、压缩数据或更改算法行为的情况下进行详细的分析,实现了 CNN 在数百个节点上的扩展,并展示了记录的训练吞吐量,同时通过在基于以太网的 AWS 集群上训练,使深度学习更加平民化,在 16 个节点上展示了约 14 倍的扩展性。
Feb, 2016
本论文提出了一种名为 GradientFlow 的通信后端,通过一系列网络优化技术来优化深度神经网络(DNN)的分布式训练,包括环形全局归约、混合精度训练、循环计算 / 通信和懒惰全局归约等,实现了超过 410 倍的训练速度加速比和 1.5 分钟完成 95 个 Epoch 的训练。
Feb, 2019
本文介绍了 FireCaffe,一个可以在 GPU 集群上成功扩展深度神经网络训练的工具,并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时,当集群有 128 个 GPU 时,取得了 47x 和 39x 的加速效果。
Oct, 2015