Blink: 分布式机器学习的快速通用集合

Oct, 2019

Blink: 分布式机器学习的快速通用集合

Blink: Fast and Generic Collectives for Distributed ML

Guanhua Wang, Shivaram Venkataraman, Amar Phanishayee, Jorgen Thelin, Nikhil Devanur...

TL;DRBlink是一种集合通信库，它通过打包生成生成最佳通讯原语的生成树来解决GPU上的参数同步问题，而且还可以利用异构通信通道实现更快的数据传输，从而优化数据并行训练，提高图像分类任务的效率。

Abstract

Model parameter synchronization across GPUs introduces high overheads for data-parallel training at scale. Existing parameter synchronization

发现论文，激发创造

Poseidon: 适用于GPU集群分布式深度学习的高效通讯架构

Poseidon是一种用于GPU分布式深度学习的高效通信架构，利用分层模型结构以减少网络通信，且在不同框架中均可使用，可实现15.5倍的速度提升。

Jun, 2017

SlowMo: 用缓慢动量提升通信高效分布式SGD

该论文提出了一种基于SlowMo的分布式优化方法，它采取了一种新的策略来减少通信开销，该方法相对于传统方法在优化和一般化性能上都有所提高，并给出了收敛保证。

Oct, 2019

加速异步通信的分散式深度学习（A²CiD²）

本文提出了基于Gossip的异步分布式训练算法$ extbf{A}^2 extbf{CiD}^2$，它通过连续的动量来加速通信，同时适用于不同的异步方法，实验证明该算法在ImageNet数据集上使用高达64个异步工作器定位各种通信网络拓扑结构时具有显着的通信加速效应。

Jun, 2023

ZeRO++：巨型模型训练的极高效集体通信

本文介绍了三种通信量减少技术，目标是针对ZeRO中的每个通信集合，共同提高ZeRO ++的有效吞吐量，减少ZeRO的通信量，并允许在384个GPU规模下提高最多2.16倍的吞吐量。

Jun, 2023

通过选择性同步加速分布式机器学习训练

本文提出了一种名为SelSync的低开销方法，用于DNN训练，该方法具有动态选择通信与否的功能，可提高收敛性，比BSP技术减少训练时间高达14倍。

Jul, 2023

分布式训练通用架构的稳健全异步方法

通过提出一种称为R-FAST的稳健全异步随机梯度跟踪方法，该方法可以消除数据异构性、允许数据丢失，并利用两个树形图进行通信，从而在分布式机器学习中实现了高效的非同步算法。

Jul, 2023

MAD Max超越单节点：在分布式系统上加速大规模机器学习模型

基于真实世界的大规模模型训练和数据中心规模基础设施，我们展示了14~32%的GPU时间用于非重叠计算的通信。为了最小化未完成的通信延迟，在这项工作中，我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代GPU训练硬件上的真实大规模ML模型套件，我们分别展示了预训练和推理场景的2.24倍和5.27倍的吞吐量提升潜力。

Oct, 2023

ForestColl：异构网络纺织品上的高效集体通信

在现代DNN模型不断增大的同时，加速器之间的集体通信（allreduce等）成为一个重要的性能瓶颈。在今天高度多样化和异构的网络结构下，设计高效的通信调度是具有挑战性的。本文提出了ForestColl，一种为任何网络拓扑生成高效调度的工具。ForestColl构建广播/聚合的生成树作为通信调度，实现了理论上的最小网络拥塞。其调度生成在强多项式时间内运行，并具有高度可扩展性。在多集群AMD MI250和NVIDIA A100平台上评估了ForestColl。与供应商自己优化的通信库RCCL和NCCL相比，ForestColl的调度性能提高了多达52％。ForestColl还在生成调度效率上超过其他最先进的调度生成技术，生成的调度更加高效，在调度生成速度上有数量级的提升。

Feb, 2024

多GPU平台机器学习训练的通用性能建模

通过数据分配感知性能模型和通信集合的数据移动预测，我们可以在多个GPU平台上训练机器学习工作负载，并且能够准确预测迭代训练时间，扩展到其他类型的机器学习工作负载，例如基于Transformer的自然语言处理模型，并能够生成洞察力，如快速选择最快的嵌入表分片配置。

Apr, 2024

使用C4提升大规模并行训练效率：一种基于通信的方法

本文介绍了一种基于通信的解决方案C4，通过利用并行训练中集体通信的周期性和均匀性特征，快速识别故障组件，避免了资源浪费，并且通过有效的流量规划大大降低了网络拥塞。该解决方案在生产系统中得到了广泛实施，削减了因错误导致的开销约30％，并提高了某些应用程序的运行时性能约15％。

Jun, 2024