又一种加速的 SGD: 在 ImageNet 上以 74.7 秒的速度训练 ResNet-50
使用大批量大小的训练技术,如 RMSprop 预热、批量归一化等方法,我们成功地在 15 分钟内使用 1024 个 Tesla P100 GPU 在 ImageNet 数据集上对 ResNet-50 进行了 90 轮训练,并在此过程中保持了准确性。
Nov, 2017
使用批次大小控制和标签平滑来解决大批次训练不稳定性问题;使用 2D-Torus all-reduce 解决梯度同步过程中的开销,实现了在 ABC 集群上在 122 秒内训练 ImageNet/ResNet-50 且精度损失不显著的分布式深度学习技术.
Nov, 2018
提出了一个用于 GPU 集群的高度可扩展的深度学习训练系统,其中包括采用混合精度训练的方法、优化极大 mini-batch size 的方法、采用高度优化的全约约算法等,这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。
Jul, 2018
本文探讨了在 petaflop 级超级计算机上训练 ResNet-50 的挑战和新解决方案,最终展示了高达 90%的扩展效率和 28 分钟的训练时间。同时介绍了 Collapsed Ensemble (CE) 技术,使得在相同的固定训练预算下,使用未修改的 ResNet-50 拓扑结构可以获得高达 77.5%的准确率,类似于 ResNet-152。
Nov, 2017
采用大批量数据并行同步 SGD 的 LARS 算法,我们在 2048 个 KNL 上完成了 90 个周期 ResNet-50 的 ImageNet 训练,仅需 20 分钟,同时达到 74.9% 的测试精度。
Sep, 2017
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018
本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用,证明了通过采用新的学习率调整规则和温暖启动方法,大批量训练可以克服优化难题,取得和小批量相同的精度,实现了在支持多达 256 个 GPU 的硬件上,在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。
Jun, 2017
本论文介绍了一款软硬协同优化的分布式深度学习系统,通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间,并在 Resnet-101 上取得了 33.8% 的验证精度,系统已被集成到 Tensorflow、Caffe 和 Torch 中。
Aug, 2017
本文提出了在 ICLR 的竞赛中获得第一名的硬件感知高效训练方法,该方法针对在不到 10 分钟内在图像分类任务中实现尽可能高的准确性的挑战。通过在一个小数据集上进行训练,并应用一系列技术来改进 ResNet-9 的泛化性能,我们的实验表明,ResNet-9 可以在不到 10 分钟的时间内只使用 CIFAR-10 数据集的 10% 子集达到 88% 的准确率。
Sep, 2023