梯度编码
本文提出了一种直接在数据中嵌入冗余来处理缓慢任务的新方法,通过一些编码技巧将复制数据的策略转换到线性计算过程中,从而利用节点的任意变化在没有等待慢节点的情况下完成散列计算,并通过实验结果表明此方法的优势。
Nov, 2017
本文提出了一种分布式优化框架,通过将数据编码为过完备表示,并动态地在每次迭代中舍弃整个计算中的掉队节点,从而减少了延迟和通信传输的负担,结果表明在数据被编码的情况下,对于几种流行的优化算法,包括梯度下降、L-BFGS、在数据并行性下的近端梯度以及在模型并行性下的坐标下降,当掉队者被视为纠删码时,它们都会收敛到原始问题的近似或精确解,收敛结果是确定性的,并且与掉队分布的尾部行为无关,本研究还提出了一种用于大规模数据编码的高效机制,以及证明了用等角紧框架作为编码矩阵的理想性质,并与未编码、异步和数据复制策略进行了比较。
Mar, 2018
本文介绍了一种新的梯度编码(GC)方案,结合多消息通信(MMC)和聚类,以减少因服务器慢导致的迭代时间延长问题,其能有效提高平均完成时间并降低通信负荷。
Mar, 2019
为了解决同步数据并行训练中的通信瓶颈,本研究评估了梯度压缩方法的有效性,并将它们的可扩展性与优化后的同步数据并行 SGD 实现进行了比较。分析发现,仅有 6 种情况下,梯度压缩方法提供了速度优势。本研究提出了一种性能模型,用于确定在各种系统设置中梯度压缩的益处,并提出了一些理想的梯度压缩方法的性质列表,以获得有意义的综合优势。
Feb, 2021
在本论文中,我们考虑了分布式学习中存在滞后问题的分散化学习问题。虽然梯度编码技术已经应用于分布式学习以规避滞后问题,其中设备发送带有冗余训练数据的编码梯度,但是直接应用这些技术到分散化学习场景中比较困难。为了解决这个问题,我们提出了一种基于流言蜚语的带有梯度编码的分散化学习方法(GOCO)。在该方法中,为了避免滞后问题的负面影响,参数向量使用基于随机梯度编码框架的编码梯度进行本地更新,并以基于流言蜚语的方式进行平均。我们分析了GOCO在强凸损失函数下的收敛性能,并通过仿真结果证明了所提出方法在学习性能方面相对于基准方法的优越性。
Feb, 2024
本文研究了分布式学习在存在迟滞节点的情况下的问题,提出了一种基于1-bit梯度编码的新的分布式学习方法,通过降低通信开销,在相同的通信开销下获得更好的学习性能。
Mar, 2024
通过引入边缘节点作为额外的中间层,本文探讨了在分层分布式学习系统中缓解滞后效应的问题,首先推导了工作节点的计算负载和滞后者容忍度之间的基本权衡关系,然后提出了一种层级渐进编码框架,以实现所得到的计算权衡。为了在异构场景中进一步提高我们的框架性能,我们制定了一个优化问题,旨在最小化学习过程中每次迭代的预期执行时间,并设计了一种高效算法来数学求解该问题,得到最优策略。通过大量模拟结果,证明了我们的方案相对于传统解决方案的优越性。
Jun, 2024