又一种加速的 SGD: 在 ImageNet 上以 74.7 秒的速度训练 ResNet-50

Mar, 2019

又一种加速的 SGD: 在 ImageNet 上以 74.7 秒的速度训练 ResNet-50

Yet Another Accelerated SGD: ResNet-50 Training on ImageNet in 74.7 seconds

Masafumi Yamazaki, Akihiko Kasagi, Akihiro Tabuchi, Takumi Honda, Masahiro Miwa...

TL;DR通过优化方法，我们使用 ABCI 集群上的 2048 个 GPU，在 74.7 秒内实现了高达 1.73 百万张图像 / 秒的训练吞吐量和 75.08％的 top-1 验证准确性，解决了分布式深度学习中大规模集群高伸缩性和高准确性的挑战。

Abstract

There has been a strong demand for algorithms that can execute machine learning as faster as possible and the speed of deep learning has accelerated by 30 times only in the past two years. distributed deep learning using the →

distributed deep learning large mini-batch optimization methods scalability gpu cluster

发现论文，激发创造

在 ImageNet 数据集上使用极大的 Minibatch SGD 训练 ResNet-50 模型只需 15 分钟

使用大批量大小的训练技术，如 RMSprop 预热、批量归一化等方法，我们成功地在 15 分钟内使用 1024 个 Tesla P100 GPU 在 ImageNet 数据集上对 ResNet-50 进行了 90 轮训练，并在此过程中保持了准确性。

Nov, 2017

闪电般的 ImageNet/ResNet-50 训练：大规模分布式 SGD

使用批次大小控制和标签平滑来解决大批次训练不稳定性问题；使用 2D-Torus all-reduce 解决梯度同步过程中的开销，实现了在 ABC 集群上在 122 秒内训练 ImageNet/ResNet-50 且精度损失不显著的分布式深度学习技术.

Nov, 2018

基于混合精度的高可扩展深度学习训练系统：四分钟内训练 Imagenet

提出了一个用于 GPU 集群的高度可扩展的深度学习训练系统，其中包括采用混合精度训练的方法、优化极大 mini-batch size 的方法、采用高度优化的全约约算法等，这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。

Jul, 2018

大型小批量 SGD 扩展：改进准确性和减少训练时间的 ImageNet-1K 上残差网络训练

本文探讨了在 petaflop 级超级计算机上训练 ResNet-50 的挑战和新解决方案，最终展示了高达 90％的扩展效率和 28 分钟的训练时间。同时介绍了 Collapsed Ensemble (CE) 技术，使得在相同的固定训练预算下，使用未修改的 ResNet-50 拓扑结构可以获得高达 77.5％的准确率，类似于 ResNet-152。

Nov, 2017

分钟级 ImageNet 训练

采用大批量数据并行同步 SGD 的 LARS 算法，我们在 2048 个 KNL 上完成了 90 个周期 ResNet-50 的 ImageNet 训练，仅需 20 分钟，同时达到 74.9% 的测试精度。

Sep, 2017

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018

精确的大型小批量随机梯度下降法：在 1 小时内训练 ImageNet

本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用，证明了通过采用新的学习率调整规则和温暖启动方法，大批量训练可以克服优化难题，取得和小批量相同的精度，实现了在支持多达 256 个 GPU 的硬件上，在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。

Jun, 2017

PowerAI DDL

本论文介绍了一款软硬协同优化的分布式深度学习系统，通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间，并在 Resnet-101 上取得了 33.8% 的验证精度，系统已被集成到 Tensorflow、Caffe 和 Torch 中。

Aug, 2017

改进小数据集上训练的 Resnet-9 泛化能力

本文提出了在 ICLR 的竞赛中获得第一名的硬件感知高效训练方法，该方法针对在不到 10 分钟内在图像分类任务中实现尽可能高的准确性的挑战。通过在一个小数据集上进行训练，并应用一系列技术来改进 ResNet-9 的泛化性能，我们的实验表明，ResNet-9 可以在不到 10 分钟的时间内只使用 CIFAR-10 数据集的 10% 子集达到 88% 的准确率。

Sep, 2023

卷积网络的大批量训练

本文介绍了一种新的大批量训练算法：LARS，该算法采用分层自适应速率缩放，可使得尽管使用大批量训练，Alexnet 和 Resnet-50 的准确性不会降低。

Aug, 2017