FLUX: 通过内核融合在 GPU 上实现快速的基于软件的通信重叠

Jun, 2024

FLUX: 通过内核融合在 GPU 上实现快速的基于软件的通信重叠

FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion

Liwen Chang, Wenlei Bao, Qi Hou, Chengquan Jiang, Ningxin Zheng...

TL;DRFlux 是一种新方法，通过细粒度操作和融合以有效地隐藏通信并提高内核效率，可以在集群上实现训练和推断的速度提升。

Abstract

large deep learning models have demonstrated strong ability to solve many tasks across a wide range of applications. Those large models typically require training and inference to be distributed. tensor parallelism

large deep learning models tensor parallelism communication latencies flux speedups

发现论文，激发创造

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

DistriFusion：高分辨率扩散模型的分布式并行推理

通过利用并行处理和分布式计算，我们提出了 DistriFusion 方法以应对扩散模型在生成高分辨率图像时面临的计算资源和延迟的挑战。DistriFusion 方法能够以较低的质量损失，在多个 GPU 上实现高效率的图像生成，并通过异步通信以及计算流水线的方式实现了高达 6.1 倍的速度提升。

Feb, 2024

PipeFusion: 扩散变压器模型推理的位移块并行处理

介绍了 PipeFusion 的一种新方法，利用多 GPU 并行性来解决扩散变压器（DiT）模型生成高分辨率图像的高计算和延迟挑战。通过分割图像并在多个设备上分布网络层，以管道并行的方式编排通信和计算，利用相邻扩散步骤输入的高相似性，通过重用一步陈旧的特征图为当前步骤提供上下文，实验结果表明，PipeFusion 能够在现有 DiT 并行方法无法满足 OOM 的情况下生成更高的图像分辨率。PipeFusion 显著降低了所需的通信带宽，使 DiT 推理能够在通过 PCIe 连接的 GPU 上托管，而不是更昂贵的 NVLink 基础结构，从而大幅降低了为服务 DiT 模型的整体运营费用。我们的代码公开可用于 https:// 所提供的 URL。

May, 2024

异步张量并行通信最小化

本研究提出 Tensor3D 算法来高效地训练具有数十亿参数的神经网络，能够最小化通信引起的空闲时间，通过智能神经网络参数分布、并行训练过程的超分解以及通信模型，优化通信，相较于 Megatron-LM，Tensor3D 将 28B 参数 CNN 在 256 个 A100 GPU 上的训练时间缩短了近 60%。

May, 2023

优化 GPU 集群上分布式 DNN 训练的网络性能：1.5 分钟内完成 ImageNet/AlexNet 训练

本论文提出了一种名为 GradientFlow 的通信后端，通过一系列网络优化技术来优化深度神经网络（DNN）的分布式训练，包括环形全局归约、混合精度训练、循环计算 / 通信和懒惰全局归约等，实现了超过 410 倍的训练速度加速比和 1.5 分钟完成 95 个 Epoch 的训练。

Feb, 2019

T3: 透明化追踪与触发技术用于计算和集合的细粒度叠加

T3 是一种通过硬件 - 软件协同设计，透明地重叠序列化的通信和计算，并最小化资源争用的方法，可对 Transformer 模型进行加速，减少数据移动。

Jan, 2024

Helix: 基于异构 GPU 上的最大流进行大型语言模型的分布式服务

介绍了一种名为 Helix 的分布式系统，用于在异构 GPU 集群上提供高吞吐量和低延迟的大语言模型（LLM）服务。通过将 LLMs 的推理计算以最大流问题形式表示为有向加权图，使用混合整数线性规划（MILP）算法来发现高度优化的策略，从而联合优化模型放置和请求调度，在几个异构集群设置上的评估结果表明，与现有的最佳方法相比，Helix 将服务吞吐量提高了 2.7 倍，并将提示和解码延迟分别降低了 2.8 倍和 1.3 倍。

Jun, 2024

FireCaffe: 在计算集群上深度神经网络训练的近线性加速

本文介绍了 FireCaffe，一个可以在 GPU 集群上成功扩展深度神经网络训练的工具，并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时，当集群有 128 个 GPU 时，取得了 47x 和 39x 的加速效果。

Oct, 2015

使用 C4 提升大规模并行训练效率：一种基于通信的方法

本文介绍了一种基于通信的解决方案 C4，通过利用并行训练中集体通信的周期性和均匀性特征，快速识别故障组件，避免了资源浪费，并且通过有效的流量规划大大降低了网络拥塞。该解决方案在生产系统中得到了广泛实施，削减了因错误导致的开销约 30％，并提高了某些应用程序的运行时性能约 15％。

Jun, 2024

Flover: 一种用于高效自回归模型并行推理的时空融合框架

在深度学习领域，为了提高模型推理性能，文章提出了名为 Flavor 的时序融合框架，它可应用于各种推理场景，通过提供更细粒度的并行性和采用有效的内存洗牌算法，相对于 NVIDIA Triton FasterTransformer 等先进解决方案，Flavor 实现了 GPT 模型高达 11 倍的更快推理，同时也跨越了硬件边界。

May, 2023