May, 2024

PipeFusion: 扩散变压器模型推理的位移块并行处理

TL;DR介绍了 PipeFusion 的一种新方法,利用多 GPU 并行性来解决扩散变压器(DiT)模型生成高分辨率图像的高计算和延迟挑战。通过分割图像并在多个设备上分布网络层,以管道并行的方式编排通信和计算,利用相邻扩散步骤输入的高相似性,通过重用一步陈旧的特征图为当前步骤提供上下文,实验结果表明,PipeFusion 能够在现有 DiT 并行方法无法满足 OOM 的情况下生成更高的图像分辨率。PipeFusion 显著降低了所需的通信带宽,使 DiT 推理能够在通过 PCIe 连接的 GPU 上托管,而不是更昂贵的 NVLink 基础结构,从而大幅降低了为服务 DiT 模型的整体运营费用。我们的代码公开可用于 https:// 所提供的 URL。