Apr, 2020
使用避免等待的群组平均法在并行随机优化中突破(全球)界限
Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging
Shigang Li, Tal Ben-Nun, Giorgi Nadiradze, Salvatore Di Girolamo, Nikoli Dryden...
TL;DR本文提出了 Wait-Avoiding Group Model Averaging (WAGMA) SGD 算法,采用子集权重交换的方式减少全局通信,优化分布式深度学习中的性能问题,相较于其他分布式 SGD 算法具有更快的训练速度和更高的得分。