KDDOct, 2020

大规模培训推荐系统:通信高效模型和数据并行处理

TL;DR本文针对分布式系统中大规模推荐模型的分布式训练提出了一种基于数据并行性和模型并行性的混合并行计算模型,并设计了动态通信阈值压缩框架,该框架能够有效地减少通信开销并提高训练效率。实验结果表明,使用该算法可以在不降低性能的情况下,将数据并行和模型并行的通信量分别降低至原来的 1% 和 5%。