Feb, 2024

分布式 SGD 的截断非均匀量化

TL;DR为了解决分布式学习中的通信瓶颈挑战,本研究引入了一种新的两阶段量化策略,旨在增强分布式随机梯度下降(SGD)的通信效率。通过截断来减轻长尾噪声的影响,随后根据梯度的统计特征进行非均匀量化。我们为量化的分布式 SGD 提供了全面的收敛性分析,为其性能提供了理论保证。此外,通过最小化收敛误差,我们推导出了在给定通信约束下的截断阈值和非均匀量化水平的最优闭式解。理论洞察力和广泛的实验评估表明,我们的算法优于现有的量化方案,在通信效率和收敛性能之间达到了更优的平衡。