Nov, 2017

GPU 上的分布式深度学习框架性能建模与评估

TL;DR本研究通过评估四种最先进的分布式深度学习框架(即 Caffe-MPI,CNTK,MXNet 和 TensorFlow)在单 GPU、多 GPU 和多节点环境中的运行性能,基于 SGD 训练三种流行的卷积神经网络(即 AlexNet,GoogleNet 和 ResNet-50),分析了引起这四个框架性能差异的因素,并提出进一步优化方向。通过分析和实验研究,发现了可以进一步优化的瓶颈和开销,为算法设计和系统配置提供了改进方向。