分布式学习中的滞后处理减轻随机梯度编码
本文提出了一个新的编码理论框架用于缓解分布式学习中的滞后问题,并使用 MPI 在 Amazon EC2 上实现了该方案,得出其在运行时间和泛化误差方面比基准方法更优秀的结论。
Dec, 2016
在本论文中,我们考虑了分布式学习中存在滞后问题的分散化学习问题。虽然梯度编码技术已经应用于分布式学习以规避滞后问题,其中设备发送带有冗余训练数据的编码梯度,但是直接应用这些技术到分散化学习场景中比较困难。为了解决这个问题,我们提出了一种基于流言蜚语的带有梯度编码的分散化学习方法(GOCO)。在该方法中,为了避免滞后问题的负面影响,参数向量使用基于随机梯度编码框架的编码梯度进行本地更新,并以基于流言蜚语的方式进行平均。我们分析了 GOCO 在强凸损失函数下的收敛性能,并通过仿真结果证明了所提出方法在学习性能方面相对于基准方法的优越性。
Feb, 2024
本文研究了分布式学习在存在迟滞节点的情况下的问题,提出了一种基于 1-bit 梯度编码的新的分布式学习方法,通过降低通信开销,在相同的通信开销下获得更好的学习性能。
Mar, 2024
本文介绍了一种新的梯度编码(GC)方案,结合多消息通信(MMC)和聚类,以减少因服务器慢导致的迭代时间延长问题,其能有效提高平均完成时间并降低通信负荷。
Mar, 2019
本文提出了一种直接在数据中嵌入冗余来处理缓慢任务的新方法,通过一些编码技巧将复制数据的策略转换到线性计算过程中,从而利用节点的任意变化在没有等待慢节点的情况下完成散列计算,并通过实验结果表明此方法的优势。
Nov, 2017
本文介绍了一种分布式梯度下降方法,该方法使用编码理论并考虑存在 stragglers 的情况,以恰当的机器学习问题为应用场景,理论证明了在给定机器计算能力的情况下,可以通过最少数量的机器 $f$ 通过 $O (f^2)$ 解码算法恢复梯度,并提供了一个理论模型来最小化方案参数,从而最小化期望等待时间。最终,数值实验表明了该方法的优越性。
Jun, 2017
本研究提出了一种名为批处理优惠券集合(BCC)的分布式计算方案,以减轻梯度法中流浪者的影响,该方案在随机弱者数量接近最优时具有鲁棒性,并证明了 BCC 方案的有效性,提高了 85.4%的运行时间。此外,该方案的泛化结果证明了其能够在异构工作节点上实现梯度下降算法以最小化完成时间。
Oct, 2017
本文提出了一种分布式优化框架,通过将数据编码为过完备表示,并动态地在每次迭代中舍弃整个计算中的掉队节点,从而减少了延迟和通信传输的负担,结果表明在数据被编码的情况下,对于几种流行的优化算法,包括梯度下降、L-BFGS、在数据并行性下的近端梯度以及在模型并行性下的坐标下降,当掉队者被视为纠删码时,它们都会收敛到原始问题的近似或精确解,收敛结果是确定性的,并且与掉队分布的尾部行为无关,本研究还提出了一种用于大规模数据编码的高效机制,以及证明了用等角紧框架作为编码矩阵的理想性质,并与未编码、异步和数据复制策略进行了比较。
Mar, 2018