Nov, 2023

MALCOM-PSGD:用于通信高效的分散式机器学习的近似近端随机梯度下降

TL;DR近期的研究表明,频繁的模型通信是分布式机器学习(ML)尤其是针对大规模和过参数化的神经网络(NNs)效率的主要瓶颈。本文介绍了一种新的分布式 ML 算法 MALCOM-PSGD,它在模型稀疏化中策略性地整合了梯度压缩技术。MALCOM-PSGD 利用近端随机梯度下降来处理模型稀疏化中由于ℓ₁正则化而引起的非光滑性。此外,我们采用矢量源编码和基于抖动的量化来压缩稀疏模型的梯度通信。我们的分析表明,假设学习率递减,具有压缩通信的分布式近端随机梯度下降具有收敛速率为 O (ln (t)/√(t)),其中 t 表示迭代次数。数值结果验证了我们的理论发现,并且证明我们的方法在比较于最先进的方法时可以将通信成本降低约 75%。