FLUX: 通过内核融合在 GPU 上实现快速的基于软件的通信重叠
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021
通过利用并行处理和分布式计算,我们提出了 DistriFusion 方法以应对扩散模型在生成高分辨率图像时面临的计算资源和延迟的挑战。DistriFusion 方法能够以较低的质量损失,在多个 GPU 上实现高效率的图像生成,并通过异步通信以及计算流水线的方式实现了高达 6.1 倍的速度提升。
Feb, 2024
介绍了 PipeFusion 的一种新方法,利用多 GPU 并行性来解决扩散变压器(DiT)模型生成高分辨率图像的高计算和延迟挑战。通过分割图像并在多个设备上分布网络层,以管道并行的方式编排通信和计算,利用相邻扩散步骤输入的高相似性,通过重用一步陈旧的特征图为当前步骤提供上下文,实验结果表明,PipeFusion 能够在现有 DiT 并行方法无法满足 OOM 的情况下生成更高的图像分辨率。PipeFusion 显著降低了所需的通信带宽,使 DiT 推理能够在通过 PCIe 连接的 GPU 上托管,而不是更昂贵的 NVLink 基础结构,从而大幅降低了为服务 DiT 模型的整体运营费用。我们的代码公开可用于 https:// 所提供的 URL。
May, 2024
本研究提出 Tensor3D 算法来高效地训练具有数十亿参数的神经网络,能够最小化通信引起的空闲时间,通过智能神经网络参数分布、并行训练过程的超分解以及通信模型,优化通信,相较于 Megatron-LM,Tensor3D 将 28B 参数 CNN 在 256 个 A100 GPU 上的训练时间缩短了近 60%。
May, 2023
本论文提出了一种名为 GradientFlow 的通信后端,通过一系列网络优化技术来优化深度神经网络(DNN)的分布式训练,包括环形全局归约、混合精度训练、循环计算 / 通信和懒惰全局归约等,实现了超过 410 倍的训练速度加速比和 1.5 分钟完成 95 个 Epoch 的训练。
Feb, 2019
T3 是一种通过硬件 - 软件协同设计,透明地重叠序列化的通信和计算,并最小化资源争用的方法,可对 Transformer 模型进行加速,减少数据移动。
Jan, 2024
介绍了一种名为 Helix 的分布式系统,用于在异构 GPU 集群上提供高吞吐量和低延迟的大语言模型(LLM)服务。通过将 LLMs 的推理计算以最大流问题形式表示为有向加权图,使用混合整数线性规划(MILP)算法来发现高度优化的策略,从而联合优化模型放置和请求调度,在几个异构集群设置上的评估结果表明,与现有的最佳方法相比,Helix 将服务吞吐量提高了 2.7 倍,并将提示和解码延迟分别降低了 2.8 倍和 1.3 倍。
Jun, 2024
本文介绍了 FireCaffe,一个可以在 GPU 集群上成功扩展深度神经网络训练的工具,并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时,当集群有 128 个 GPU 时,取得了 47x 和 39x 的加速效果。
Oct, 2015
本文介绍了一种基于通信的解决方案 C4,通过利用并行训练中集体通信的周期性和均匀性特征,快速识别故障组件,避免了资源浪费,并且通过有效的流量规划大大降低了网络拥塞。该解决方案在生产系统中得到了广泛实施,削减了因错误导致的开销约 30%,并提高了某些应用程序的运行时性能约 15%。
Jun, 2024
在深度学习领域,为了提高模型推理性能,文章提出了名为 Flavor 的时序融合框架,它可应用于各种推理场景,通过提供更细粒度的并行性和采用有效的内存洗牌算法,相对于 NVIDIA Triton FasterTransformer 等先进解决方案,Flavor 实现了 GPT 模型高达 11 倍的更快推理,同时也跨越了硬件边界。
May, 2023