Jul, 2023

DEFT: 利用模型层之间的梯度范数差异实现可扩展梯度稀疏化

TL;DR梯度稀疏化是减少分布式深度学习中过多通信流量的广泛采用解决方案,然而,大多数现有的梯度稀疏化方法由于梯度选择的计算成本较高和 / 或由于梯度累积导致的通信流量增加而具有相对较差的可扩展性。为了解决这些挑战,我们提出了一种新颖的梯度稀疏化方案 DEFT,它将梯度选择任务划分为子任务并将其分配给工作节点。DEFT 与现有的稀疏化方法不同,在于每个工作节点在所有梯度中选择梯度。因此,随着工作节点的增加,可以减少计算成本。此外,DEFT 可以消除梯度累积,因为允许工作节点在不重叠的分区中选择梯度。因此,即使工作节点的数量增加,也可以根据用户要求保持通信流量不变。为了避免梯度选择的重要性损失,DEFT 在梯度范数较大的层中选择更多的梯度。由于每个层的计算负载不同,DEFT 使用装箱算法将层分配给工作节点,以在工作节点之间保持平衡的梯度选择负载。在我们的实证评估中,DEFT 在梯度选择的速度方面相对于现有的稀疏化方法显示出显著的训练性能改进,同时实现了高收敛性能。