May, 2024

扁平化一比特随机梯度下降:受控方差的压缩分布式优化

TL;DR我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降(SGD)的新算法。我们的梯度压缩技术名为压平一位随机梯度下降(FO-SGD),它依赖于两个简单的算法思想:(i)利用抖动技术的一位量化过程,和(ii)在量化之前使用随机快速Walsh-Hadamard变换来压平随机梯度。因此,在该方案中,真实梯度的近似是有偏的,但它避免了常见的算法问题,如在一位压缩制度下方差激增、在梯度稀疏情况下性能恶化和对随机梯度分布的限制性假设。实际上,我们证明了在温和条件下类似于SGD的收敛性保证。该压缩技术可在工作机-服务器通信的双向上使用,因此支持具有完整通信压缩的分布式优化。