PowerAI DDL

Aug, 2017

Minsik Cho, Ulrich Finkler, Sameer Kumar, David Kung, Vaibhav Saxena...

TL;DR本论文介绍了一款软硬协同优化的分布式深度学习系统，通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间，并在 Resnet-101 上取得了 33.8% 的验证精度，系统已被集成到 Tensorflow、Caffe 和 Torch 中。

Abstract

As deep neural networks become more complex and input datasets grow larger, it can take days or even weeks to train a deep neural network to the desired accuracy. Therefore, distributed deep learning at a massive scale is a critical capability, since it offers the potential to reduce t

distributed deep learning multi-ring communication pattern gpu resnet-101 training time

发现论文，激发创造

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018

基于混合精度的高可扩展深度学习训练系统：四分钟内训练 Imagenet

提出了一个用于 GPU 集群的高度可扩展的深度学习训练系统，其中包括采用混合精度训练的方法、优化极大 mini-batch size 的方法、采用高度优化的全约约算法等，这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。

Jul, 2018

FireCaffe: 在计算集群上深度神经网络训练的近线性加速

本文介绍了 FireCaffe，一个可以在 GPU 集群上成功扩展深度神经网络训练的工具，并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时，当集群有 128 个 GPU 时，取得了 47x 和 39x 的加速效果。

Oct, 2015

闪电般的 ImageNet/ResNet-50 训练：大规模分布式 SGD

使用批次大小控制和标签平滑来解决大批次训练不稳定性问题；使用 2D-Torus all-reduce 解决梯度同步过程中的开销，实现了在 ABC 集群上在 122 秒内训练 ImageNet/ResNet-50 且精度损失不显著的分布式深度学习技术.

Nov, 2018

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

又一种加速的 SGD: 在 ImageNet 上以 74.7 秒的速度训练 ResNet-50

通过优化方法，我们使用 ABCI 集群上的 2048 个 GPU，在 74.7 秒内实现了高达 1.73 百万张图像 / 秒的训练吞吐量和 75.08％的 top-1 验证准确性，解决了分布式深度学习中大规模集群高伸缩性和高准确性的挑战。

Mar, 2019

ChainerMN：可扩展分布式深度学习框架

该论文介绍设计、实现和评估我们开发的分布式深度学习框架 ChainerMN，并证明使用该框架可以将 ResNet-50 模型的学习过程扩展到 128 个 GPU。

Oct, 2017

优化 GPU 集群上分布式 DNN 训练的网络性能：1.5 分钟内完成 ImageNet/AlexNet 训练

本论文提出了一种名为 GradientFlow 的通信后端，通过一系列网络优化技术来优化深度神经网络（DNN）的分布式训练，包括环形全局归约、混合精度训练、循环计算 / 通信和懒惰全局归约等，实现了超过 410 倍的训练速度加速比和 1.5 分钟完成 95 个 Epoch 的训练。

Feb, 2019

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

大型小批量 SGD 扩展：改进准确性和减少训练时间的 ImageNet-1K 上残差网络训练

本文探讨了在 petaflop 级超级计算机上训练 ResNet-50 的挑战和新解决方案，最终展示了高达 90％的扩展效率和 28 分钟的训练时间。同时介绍了 Collapsed Ensemble (CE) 技术，使得在相同的固定训练预算下，使用未修改的 ResNet-50 拓扑结构可以获得高达 77.5％的准确率，类似于 ResNet-152。

Nov, 2017