Nov, 2019

分布式深度学习压缩通信的理论分析与实际实现之间的差异

TL;DR通过实验和理论分析,本文表明在深度神经网络的分布式数据并行训练中,面向单个层的压缩比面向整个模型的压缩方式更好,但实验也显示,具体训练模型和压缩率都可能导致实际收敛率的变化。因此,本文建议深度学习框架应支持面向单个层和整个模型的压缩方式。