Feb, 2024

保持最优梯度稀疏化成本的可扩展分布式深度学习

TL;DRExDyna 是一种新颖的梯度稀疏化方案,通过将模型的梯度张量分为细粒度的块并将连续的块分组成不重叠的分区,实现了减少通信开销、平衡工作负载和在线阈值调整,从而提高分布式训练系统的可扩展性和稀疏化性能。