利用聚类和多消息通信的梯度编码

Mar, 2019

利用聚类和多消息通信的梯度编码

Gradient Coding with Clustering and Multi-message Communication

Emre Ozfatura, Deniz Gunduz, Sennur Ulukus

TL;DR本文介绍了一种新的梯度编码（GC）方案，结合多消息通信（MMC）和聚类，以减少因服务器慢导致的迭代时间延长问题，其能有效提高平均完成时间并降低通信负荷。

Abstract

gradient descent (GD) methods are commonly employed in machine learning problems to optimize the parameters of the model in an iterative fashion. For problems with massive datasets, computations are distributed to many parallel computing servers (i.e., workers) to speed up GD iteration

gradient descent distributed computing coded computing straggling workers multi-message communication

发现论文，激发创造

使用 LDGM 代码的分布式随机梯度下降

该论文提出了一种使用低密度生成矩阵代码的分布式随机梯度下降方案，通过该方案可以在低计算成本下得到高质量的无偏梯度估计，进而改善整体性能。

Jan, 2019

通信计算高效的梯度编码

该论文提出了一种编码技术，以减少分布式学习任务的运行时间，并基于递归多项式结构提出了一种编码方案，优化了梯度计算的运行时间，同时保持相同泛化误差。

Feb, 2018

利用非持久散乱者加速分布式梯度下降

本文介绍了一种新的分布式梯度下降计算方法，通过引入冗余计算任务实现了容错，并允许每个计算服务器在每次迭代中发送多个信息以确保最大化完成任务数量，从而显著降低了每次迭代的平均完成时间。

Aug, 2018

基于 1 位梯度编码的分布式学习在滞后者存在下的应用

本文研究了分布式学习在存在迟滞节点的情况下的问题，提出了一种基于 1-bit 梯度编码的新的分布式学习方法，通过降低通信开销，在相同的通信开销下获得更好的学习性能。

Mar, 2024

分布式学习中的滞后处理减轻随机梯度编码

本文提出了一种适用于随机拖延者的梯度编码方案（SGC），它通过一种成对平衡的设计将数据点冗余分配给工作人员，并忽略了拖延者，证明了 SGC 的收敛速度与批量随机梯度下降的收敛速度相匹配，并演示了设计中的冗余量如何改进收敛速度和处理大量拖延者。

May, 2019

去除耗时者的分散式学习中的梯度编码

在本论文中，我们考虑了分布式学习中存在滞后问题的分散化学习问题。虽然梯度编码技术已经应用于分布式学习以规避滞后问题，其中设备发送带有冗余训练数据的编码梯度，但是直接应用这些技术到分散化学习场景中比较困难。为了解决这个问题，我们提出了一种基于流言蜚语的带有梯度编码的分散化学习方法（GOCO）。在该方法中，为了避免滞后问题的负面影响，参数向量使用基于随机梯度编码框架的编码梯度进行本地更新，并以基于流言蜚语的方式进行平均。我们分析了 GOCO 在强凸损失函数下的收敛性能，并通过仿真结果证明了所提出方法在学习性能方面相对于基准方法的优越性。

Feb, 2024

梯度编码

本文提出了一个新的编码理论框架用于缓解分布式学习中的滞后问题，并使用 MPI 在 Amazon EC2 上实现了该方案，得出其在运行时间和泛化误差方面比基准方法更优秀的结论。

Dec, 2016

稀疏随机图中的近似梯度编码

通过稀疏图构建的计算简单的渐变编码可以有效增强算法对滞后节点的鲁棒性。

Nov, 2017

基于边缘设备的分布式学习的分层梯度编码设计与优化

通过引入边缘节点作为额外的中间层，本文探讨了在分层分布式学习系统中缓解滞后效应的问题，首先推导了工作节点的计算负载和滞后者容忍度之间的基本权衡关系，然后提出了一种层级渐进编码框架，以实现所得到的计算权衡。为了在异构场景中进一步提高我们的框架性能，我们制定了一个优化问题，旨在最小化学习过程中每次迭代的预期执行时间，并设计了一种高效算法来数学求解该问题，得到最优策略。通过大量模拟结果，证明了我们的方案相对于传统解决方案的优越性。

Jun, 2024

利用 Reed-Solomon 码改进分布式梯度下降

本文介绍了一种分布式梯度下降方法，该方法使用编码理论并考虑存在 stragglers 的情况，以恰当的机器学习问题为应用场景，理论证明了在给定机器计算能力的情况下，可以通过最少数量的机器 $f$ 通过 $O (f^2)$ 解码算法恢复梯度，并提供了一个理论模型来最小化方案参数，从而最小化期望等待时间。最终，数值实验表明了该方法的优越性。

Jun, 2017