ATOMO: 原子稀疏化通信高效学习
通过减少信息交换的通信成本,提出了使用凸优化公式的随机梯度编码方法,该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题,同时经过正则化逻辑回归,支持向量机和卷积神经网络的实验验证了该方法的有效性。
Oct, 2017
对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
Sep, 2018
本文研究了基于梯度稀疏化的分布式深度神经网络的训练方法,证明了在一定的解析条件下,采用基于梯度幅值优先选择梯度部分更新方法具有收敛性,并验证了该方法的有效性并探究了其收敛条件。
Sep, 2018
本文提出了一种新的集成梯度方法来进行分布式机器学习,其通过量化计算的梯度避免信息不足的梯度通信并高效减少通信开销。实验证明,与现有的基于梯度或随机梯度的算法相比,该算法可以显著减少通信量和通信轮数。
Sep, 2019
研究表明,用于分布式学习的偏置压缩算子可以显著提高通信效率并达到线性收敛率,其性能优于其无偏压缩器。它们可用于随机梯度下降和分布式随机梯度下降,并且存在许多具有良好理论保证和实际性能的新偏置压缩器可供选择。
Feb, 2020
近期的研究表明,频繁的模型通信是分布式机器学习(ML)尤其是针对大规模和过参数化的神经网络(NNs)效率的主要瓶颈。本文介绍了一种新的分布式ML算法MALCOM-PSGD,它在模型稀疏化中策略性地整合了梯度压缩技术。MALCOM-PSGD利用近端随机梯度下降来处理模型稀疏化中由于ℓ₁正则化而引起的非光滑性。此外,我们采用矢量源编码和基于抖动的量化来压缩稀疏模型的梯度通信。我们的分析表明,假设学习率递减,具有压缩通信的分布式近端随机梯度下降具有收敛速率为O(ln(t)/√(t)),其中t表示迭代次数。数值结果验证了我们的理论发现,并且证明我们的方法在比较于最先进的方法时可以将通信成本降低约75%。
Nov, 2023
引入了一种新的优化问题形式,与传统的最小化机器学习模型损失的黑盒函数的方式不同。通过明确地纳入最初预训练模型和随机草图运算符,允许在训练过程中对模型和梯度进行稀疏化。本研究提出的目标函数具有深刻的性质,并强调其与标准算法的联系。同时,还介绍了几种适应新问题形式的随机梯度下降(SGD)方法的变种,包括具有一般抽样的SGD、分布式版本和具有方差减小技术的SGD。通过这种面向稀疏化的优化方法,实现了更紧凑的收敛速度和放松了假设,填补了理论原则与实际应用之间的差距,涵盖了Dropout和稀疏训练等几种重要技术。该研究为通过稀疏化感知的优化方法增强对模型训练的理论理解提供了有希望的机会。
Nov, 2023