MMAug, 2019

使用部分集体操作平衡深度学习中不平衡的训练工作负载

TL;DR本文提出了一种基于分布式深度学习的负载平衡问题的解决方法 ——eager-SGD,并使用两个部分集合(solo 和 majority)来实现其分散的梯度累积,理论上证明了算法的收敛性,实验证明在负载不均衡的环境下,它比同步 SGD 获得了 1.27 倍的加速,而不会失去准确性。