使用编码加速分布式机器学习

NIPSDec, 2015

Speeding Up Distributed Machine Learning Using Codes

Kangwook Lee, Maximilian Lam, Ramtin Pedarsani, Dimitris Papailiopoulos, Kannan Ramchandran

TL;DR探究编码算法在分布式机器学习中的应用，研究矩阵乘法和数据洗牌两种算法中应用编码技术减少 straggler 和 communication bottlenecks 时的优化效果，理论分析和实验结果均证明编码算法具有显著的优势。

Abstract

Codes are widely used in many engineering applications to offer robustness against noise. In large-scale systems there are several types of noise that can affect the performance of distributed machine learning algorithms -- straggler nodes, system failures, or →

coded solutions distributed machine learning matrix multiplication data shuffling communication bottlenecks

发现论文，激发创造

具有 Stragglers 的 Map-Shuffle-Reduce 系统的延迟 - 通信权衡改进

在分布式计算系统中，通过编码存储的数据可以减少迟滞服务器造成的延迟，并减少在洗牌阶段的服务器之间的通信负载。本文通过内部的重复编码来提高外部最大距离可分离（MDS）码的速率，进而提高洗牌阶段的多播机会，从而改善了最佳延迟和通信开销之间的平衡。

Aug, 2018

异构集群上的编码计算

本文提出了一种编码框架（HCMM）以提高异构分布式计算的速度，并展示了在 Amazon EC2 上进行分布式矩阵乘法实验的结果。该方法比三种基准负载分配方案的速度分别快 61％，46％和 36％。同时，我们还提供了在异构设置中的最优负载分配问题的一般化解决方案，并开发了一个启发式算法（HCMM）负载分配问题。

Jan, 2017

多项式码：高维编码矩阵乘法的最优设计

本研究提出了一种叫做 “多项式编码” 的计算策略，使用分布式系统（由主节点和多个工作节点组成）来进行大规模矩阵乘法计算，并通过利用编码理论的思想在工作节点上设计中间计算，以有效地处理延迟的工作节点，从而实现了恢复阈值的最优化，并在分布式卷积方面进行了扩展，以提高计算效率。

May, 2017

利用 Reed-Solomon 码改进分布式梯度下降

本文介绍了一种分布式梯度下降方法，该方法使用编码理论并考虑存在 stragglers 的情况，以恰当的机器学习问题为应用场景，理论证明了在给定机器计算能力的情况下，可以通过最少数量的机器 $f$ 通过 $O (f^2)$ 解码算法恢复梯度，并提供了一个理论模型来最小化方案参数，从而最小化期望等待时间。最终，数值实验表明了该方法的优越性。

Jun, 2017

随机极化码用于随时分布式机器学习

提出一种强大的分布式计算框架，通过随机化草图和极化码的概念，能够进行近似和精确的线性操作计算，并在实践中展示了其可扩展性。

Sep, 2023

利用聚类和多消息通信的梯度编码

本文介绍了一种新的梯度编码（GC）方案，结合多消息通信（MMC）和聚类，以减少因服务器慢导致的迭代时间延长问题，其能有效提高平均完成时间并降低通信负荷。

Mar, 2019

一种灵活的索引编码数据打乱方法

本文探讨使用 pliable index coding 于分布式计算中的数据洗牌，通过数据洗牌约束下的可变编码和分层方案实现优化，性能比 index coding 提升高达 $O (ns/m)$。

Jan, 2017

编码稀疏矩阵乘法

本文提出了一种名为 “sparse code” 的新的编码计算策略，旨在在大规模分布式矩阵乘法问题中处理分布式计算过程中的延迟问题和极高的计算损耗，实验结果证明了该策略比传统编码策略和未编码情况下的方法效果更好。

Feb, 2018

通信计算高效的梯度编码

该论文提出了一种编码技术，以减少分布式学习任务的运行时间，并基于递归多项式结构提出了一种编码方案，优化了梯度计算的运行时间，同时保持相同泛化误差。

Feb, 2018

编码计算：一个学习理论框架

编码计算是在大规模分布式计算中解决显著挑战的一个有前途的框架，本论文提出了一种基于学习理论的新型编码计算框架，通过最小化损失函数，结合编码器和解码器函数，以求得估计误差的均方误差衰减率，并在各种机器学习模型的推理任务中展示了该框架在准确性和收敛速度方面优于现有技术。

Jun, 2024