Apr, 2020

使用避免等待的群组平均法在并行随机优化中突破(全球)界限

TL;DR本文提出了 Wait-Avoiding Group Model Averaging (WAGMA) SGD 算法,采用子集权重交换的方式减少全局通信,优化分布式深度学习中的性能问题,相较于其他分布式 SGD 算法具有更快的训练速度和更高的得分。