Sep, 2015

分布式深度学习中模型准确性与运行时间的权衡:一个系统性研究

TL;DR本文提出了 Rudra—— 一种参数服务器为基础的分布式计算框架,通过异步随机梯度下降算法的变体,研究了同步协议、过期的梯度更新、小批量大小、学习速率和学习者数量对运行时性能和模型精度的影响,并提出了一种新的学习率调制策略和同步协议,这可以有效地限制梯度在过期期间的误差,提高运行时性能并实现良好的模型精度。此外,我们揭示了一种分布式神经网络的原则:随着系统中增加了更多的学习者,每位学习者的最小批量大小应相应减小以保持模型精度,并使用常用的图像分类基准数据集 CIFAR10 和 ImageNet 进行验证。