Sep, 2019

深度学习模型并行加速中的陈旧度优化

TL;DR本研究提出了 Layer-wise Staleness 方法与 Diversely Stale Parameters (DSP) 算法来解决深度卷积神经网络的训练效率问题,并对两种梯度法进行分析和证明,实验证明 DSP 能显著提升训练速度并具备更强的鲁棒性。