Mar, 2018

D$^2$: 分散数据的分散式训练

TL;DR本文提出了 D2算法,它是一种用于大数据方差的新型去中心化随机梯度下降算法,并扩展了标准 D-PSGD算法的方差降低,从而提高了算法的收敛速度。D2 算法相对于 D-PSGD 算法更能够抵御 工人之间的数据差异,这在图像分类任务中表现得尤为突出。