Dec, 2023

灵活通信实现不确定网络下的最优分布式学习

TL;DR梯度压缩通过发送更少的值和对应的索引(通常通过 Allgather)来减轻分布式深度学习中昂贵的通信成本。本文提出了一种与 Allreduce 兼容的 Topk 压缩器,在某些网络配置中比 Allgather 表现更好。我们开发了一种灵活的通信策略,根据当前设置中哪个集合操作最优,切换 AG 和 AR 之间的选择,并将并行效率和统计效率的帕累托关系建模为一个多目标优化问题,以动态调整压缩比并加速训练,同时仍收敛于高准确性。