ChainerMN:可扩展分布式深度学习框架
本研究通过评估四种最先进的分布式深度学习框架(即 Caffe-MPI,CNTK,MXNet 和 TensorFlow)在单 GPU、多 GPU 和多节点环境中的运行性能,基于 SGD 训练三种流行的卷积神经网络(即 AlexNet,GoogleNet 和 ResNet-50),分析了引起这四个框架性能差异的因素,并提出进一步优化方向。通过分析和实验研究,发现了可以进一步优化的瓶颈和开销,为算法设计和系统配置提供了改进方向。
Nov, 2017
本文介绍了 Chainer 框架,它使用 GPU 加速并提供类似 NumPy 的 API,支持 Python 中的一般和动态模型,同时还提供了最新的计算机视觉模型和分布式训练。
Aug, 2019
本论文介绍了一款软硬协同优化的分布式深度学习系统,通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间,并在 Resnet-101 上取得了 33.8% 的验证精度,系统已被集成到 Tensorflow、Caffe 和 Torch 中。
Aug, 2017
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018
设计并实现了一种分布式多节点同步的 SGD 算法,通过在不改变超参数、压缩数据或更改算法行为的情况下进行详细的分析,实现了 CNN 在数百个节点上的扩展,并展示了记录的训练吞吐量,同时通过在基于以太网的 AWS 集群上训练,使深度学习更加平民化,在 16 个节点上展示了约 14 倍的扩展性。
Feb, 2016
本文介绍了 FireCaffe,一个可以在 GPU 集群上成功扩展深度神经网络训练的工具,并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时,当集群有 128 个 GPU 时,取得了 47x 和 39x 的加速效果。
Oct, 2015
该研究比较了同步和异步随机梯度下降的收敛性,针对 ImageNet 分类问题的训练,在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛,而同步 SGD 在 100 个节点以下能更好地扩展。
Nov, 2016
使用批次大小控制和标签平滑来解决大批次训练不稳定性问题;使用 2D-Torus all-reduce 解决梯度同步过程中的开销,实现了在 ABC 集群上在 122 秒内训练 ImageNet/ResNet-50 且精度损失不显著的分布式深度学习技术.
Nov, 2018
提出了一个用于 GPU 集群的高度可扩展的深度学习训练系统,其中包括采用混合精度训练的方法、优化极大 mini-batch size 的方法、采用高度优化的全约约算法等,这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。
Jul, 2018
本文介绍了 DeepSpark,这是一个利用 Apache Spark 在普通集群上进行分布式和并行的深度学习的框架,它通过异步的弹性平均随机梯度下降算法迭代地聚合训练结果,以解决现在深度神经网络训练和大规模数据处理方面面临的挑战。
Feb, 2016