在 ImageNet 数据集上使用极大的 Minibatch SGD 训练 ResNet-50 模型只需 15 分钟

NIPSNov, 2017

在 ImageNet 数据集上使用极大的 Minibatch SGD 训练 ResNet-50 模型只需 15 分钟

Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes

Takuya Akiba, Shuji Suzuki, Keisuke Fukuda

TL;DR使用大批量大小的训练技术，如 RMSprop 预热、批量归一化等方法，我们成功地在 15 分钟内使用 1024 个 Tesla P100 GPU 在 ImageNet 数据集上对 ResNet-50 进行了 90 轮训练，并在此过程中保持了准确性。

Abstract

We demonstrate that training resnet-50 on imagenet for 90 epochs can be achieved in 15 minutes with 1024 Tesla P100 GPUs. This was made possible by using a large →

resnet-50 imagenet minibatch rmsprop batch normalization

发现论文，激发创造

又一种加速的 SGD: 在 ImageNet 上以 74.7 秒的速度训练 ResNet-50

通过优化方法，我们使用 ABCI 集群上的 2048 个 GPU，在 74.7 秒内实现了高达 1.73 百万张图像 / 秒的训练吞吐量和 75.08％的 top-1 验证准确性，解决了分布式深度学习中大规模集群高伸缩性和高准确性的挑战。

Mar, 2019

分钟级 ImageNet 训练

采用大批量数据并行同步 SGD 的 LARS 算法，我们在 2048 个 KNL 上完成了 90 个周期 ResNet-50 的 ImageNet 训练，仅需 20 分钟，同时达到 74.9% 的测试精度。

Sep, 2017

精确的大型小批量随机梯度下降法：在 1 小时内训练 ImageNet

本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用，证明了通过采用新的学习率调整规则和温暖启动方法，大批量训练可以克服优化难题，取得和小批量相同的精度，实现了在支持多达 256 个 GPU 的硬件上，在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。

Jun, 2017

大型小批量 SGD 扩展：改进准确性和减少训练时间的 ImageNet-1K 上残差网络训练

本文探讨了在 petaflop 级超级计算机上训练 ResNet-50 的挑战和新解决方案，最终展示了高达 90％的扩展效率和 28 分钟的训练时间。同时介绍了 Collapsed Ensemble (CE) 技术，使得在相同的固定训练预算下，使用未修改的 ResNet-50 拓扑结构可以获得高达 77.5％的准确率，类似于 ResNet-152。

Nov, 2017

基于混合精度的高可扩展深度学习训练系统：四分钟内训练 Imagenet

提出了一个用于 GPU 集群的高度可扩展的深度学习训练系统，其中包括采用混合精度训练的方法、优化极大 mini-batch size 的方法、采用高度优化的全约约算法等，这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。

Jul, 2018

闪电般的 ImageNet/ResNet-50 训练：大规模分布式 SGD

使用批次大小控制和标签平滑来解决大批次训练不稳定性问题；使用 2D-Torus all-reduce 解决梯度同步过程中的开销，实现了在 ABC 集群上在 122 秒内训练 ImageNet/ResNet-50 且精度损失不显著的分布式深度学习技术.

Nov, 2018

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018

卷积网络的大批量训练

本文介绍了一种新的大批量训练算法：LARS，该算法采用分层自适应速率缩放，可使得尽管使用大批量训练，Alexnet 和 Resnet-50 的准确性不会降低。

Aug, 2017

AdaBatch：用于训练深度神经网络的自适应批量大小

本研究发展一种新的训练方法，在训练过程中自适应地增加 batch size，以达到小 batch size 的收敛速率和大 batch size 的性能表现。实验结果表明，在多个网络模型中，采用自适应 batch size 训练能够显著提高算法性能，同时精度变化不超过 1％。

Dec, 2017

深度学习大批量优化：76 分钟训练 BERT

本文提出了一个新的基于分层自适应学习率的大批量优化技术 ——LAMB，主要用于加速深度神经网络训练。在各种任务（如 BERT 和 ResNet-50）中，LAMB 的表现优于现有算法，特别是在 BERT 训练中，我们的优化器能够实现 32868 的大批量大小，将训练时间从 3 天缩短至 76 分钟。

Apr, 2019