Jul, 2015

使用模型平均法并行训练深度神经网络的实验

TL;DR本研究针对深度神经网络(DNN)的并行训练使用模型平均方法。多 GPU 数据并行化,MPI 进行节点间通信,每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置,研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练,可以实现 9.3 倍和 17 倍的加速,只有少量解码精度的损失。