通信计算高效的梯度编码
本文介绍了一种新的梯度编码(GC)方案,结合多消息通信(MMC)和聚类,以减少因服务器慢导致的迭代时间延长问题,其能有效提高平均完成时间并降低通信负荷。
Mar, 2019
本文提出了一个新的编码理论框架用于缓解分布式学习中的滞后问题,并使用 MPI 在 Amazon EC2 上实现了该方案,得出其在运行时间和泛化误差方面比基准方法更优秀的结论。
Dec, 2016
本文介绍了一种分布式梯度下降方法,该方法使用编码理论并考虑存在 stragglers 的情况,以恰当的机器学习问题为应用场景,理论证明了在给定机器计算能力的情况下,可以通过最少数量的机器 $f$ 通过 $O (f^2)$ 解码算法恢复梯度,并提供了一个理论模型来最小化方案参数,从而最小化期望等待时间。最终,数值实验表明了该方法的优越性。
Jun, 2017
通过引入边缘节点作为额外的中间层,本文探讨了在分层分布式学习系统中缓解滞后效应的问题,首先推导了工作节点的计算负载和滞后者容忍度之间的基本权衡关系,然后提出了一种层级渐进编码框架,以实现所得到的计算权衡。为了在异构场景中进一步提高我们的框架性能,我们制定了一个优化问题,旨在最小化学习过程中每次迭代的预期执行时间,并设计了一种高效算法来数学求解该问题,得到最优策略。通过大量模拟结果,证明了我们的方案相对于传统解决方案的优越性。
Jun, 2024
在本论文中,我们考虑了分布式学习中存在滞后问题的分散化学习问题。虽然梯度编码技术已经应用于分布式学习以规避滞后问题,其中设备发送带有冗余训练数据的编码梯度,但是直接应用这些技术到分散化学习场景中比较困难。为了解决这个问题,我们提出了一种基于流言蜚语的带有梯度编码的分散化学习方法(GOCO)。在该方法中,为了避免滞后问题的负面影响,参数向量使用基于随机梯度编码框架的编码梯度进行本地更新,并以基于流言蜚语的方式进行平均。我们分析了 GOCO 在强凸损失函数下的收敛性能,并通过仿真结果证明了所提出方法在学习性能方面相对于基准方法的优越性。
Feb, 2024
本文研究了分布式学习在存在迟滞节点的情况下的问题,提出了一种基于 1-bit 梯度编码的新的分布式学习方法,通过降低通信开销,在相同的通信开销下获得更好的学习性能。
Mar, 2024
本文介绍了一种针对分布式计算的编码框架,通过在某些线性计算任务中引入 “计算延迟” 和 “通信负载” 之间的权衡来解决延迟和通信负载问题,从而实现在延迟和负载之间取得权衡来执行分布式计算任务。
Sep, 2016
本文提出了一种基于编码计算的分布式图处理框架,通过结构性冗余注入来在消息交换时实现编码的多播机会,从而大规模减少了通信负载,理论分析证明该方案在两种流行的随机图模型(Erdos-Renyi 模型和幂律模型)中实现了计算负载和平均通信负载之间的(近似)反比例线性折衷,实验结果表明该方案在 PageRank 计算中具有显着提高。
Jan, 2018
本文提出了 Computation and Communication Decoupling Stochastic Gradient Descent (CoCoD-SGD) 算法,实现了计算和通信的并行处理,有效减少了通信开销,较传统分布式 SGD 算法具有更高的时间加速度,在 16 个 GPU 上的 ResNet18 和 VGG16 深度神经网络训练表现出 2-3 倍的速度提升。
Jun, 2019