ChainerMN：可扩展分布式深度学习框架

Oct, 2017

ChainerMN：可扩展分布式深度学习框架

ChainerMN: Scalable Distributed Deep Learning Framework

Takuya Akiba, Keisuke Fukuda, Shuji Suzuki

TL;DR该论文介绍设计、实现和评估我们开发的分布式深度学习框架 ChainerMN，并证明使用该框架可以将 ResNet-50 模型的学习过程扩展到 128 个 GPU。

Abstract

One of the keys for deep learning to have made a breakthrough in various fields was to utilize high computing powers centering around GPUs. Enabling the use of further computing abilities by distributed processing

deep learning computing power distributed processing chainermn resnet-50

发现论文，激发创造

GPU 上的分布式深度学习框架性能建模与评估

本研究通过评估四种最先进的分布式深度学习框架（即 Caffe-MPI，CNTK，MXNet 和 TensorFlow）在单 GPU、多 GPU 和多节点环境中的运行性能，基于 SGD 训练三种流行的卷积神经网络（即 AlexNet，GoogleNet 和 ResNet-50），分析了引起这四个框架性能差异的因素，并提出进一步优化方向。通过分析和实验研究，发现了可以进一步优化的瓶颈和开销，为算法设计和系统配置提供了改进方向。

Nov, 2017

Chainer: 一种用于加速研究周期的深度学习框架

本文介绍了 Chainer 框架，它使用 GPU 加速并提供类似 NumPy 的 API，支持 Python 中的一般和动态模型，同时还提供了最新的计算机视觉模型和分布式训练。

Aug, 2019

PowerAI DDL

本论文介绍了一款软硬协同优化的分布式深度学习系统，通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间，并在 Resnet-101 上取得了 33.8% 的验证精度，系统已被集成到 Tensorflow、Caffe 和 Torch 中。

Aug, 2017

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018

使用同步随机梯度下降进行分布式深度学习

设计并实现了一种分布式多节点同步的 SGD 算法，通过在不改变超参数、压缩数据或更改算法行为的情况下进行详细的分析，实现了 CNN 在数百个节点上的扩展，并展示了记录的训练吞吐量，同时通过在基于以太网的 AWS 集群上训练，使深度学习更加平民化，在 16 个节点上展示了约 14 倍的扩展性。

Feb, 2016

FireCaffe: 在计算集群上深度神经网络训练的近线性加速

本文介绍了 FireCaffe，一个可以在 GPU 集群上成功扩展深度神经网络训练的工具，并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时，当集群有 128 个 GPU 时，取得了 47x 和 39x 的加速效果。

Oct, 2015

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

闪电般的 ImageNet/ResNet-50 训练：大规模分布式 SGD

使用批次大小控制和标签平滑来解决大批次训练不稳定性问题；使用 2D-Torus all-reduce 解决梯度同步过程中的开销，实现了在 ABC 集群上在 122 秒内训练 ImageNet/ResNet-50 且精度损失不显著的分布式深度学习技术.

Nov, 2018

基于混合精度的高可扩展深度学习训练系统：四分钟内训练 Imagenet

提出了一个用于 GPU 集群的高度可扩展的深度学习训练系统，其中包括采用混合精度训练的方法、优化极大 mini-batch size 的方法、采用高度优化的全约约算法等，这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。

Jul, 2018

DeepSpark：一个基于 Spark 的商用集群分布式深度学习框架

本文介绍了 DeepSpark，这是一个利用 Apache Spark 在普通集群上进行分布式和并行的深度学习的框架，它通过异步的弹性平均随机梯度下降算法迭代地聚合训练结果，以解决现在深度神经网络训练和大规模数据处理方面面临的挑战。

Feb, 2016