DISTWAR:基于光栅渲染管线的快速可微分渲染
通过利用并行处理和分布式计算,我们提出了 DistriFusion 方法以应对扩散模型在生成高分辨率图像时面临的计算资源和延迟的挑战。DistriFusion 方法能够以较低的质量损失,在多个 GPU 上实现高效率的图像生成,并通过异步通信以及计算流水线的方式实现了高达 6.1 倍的速度提升。
Feb, 2024
利用预训练扩散模型的一种新型学习方法,直接在对抗性的方式下对多视图渲染与扩散先验之间的分布差异进行建模,从而实现了高保真度和逼真度的三维内容生成,条件为单张图像和提示。通过利用生成对抗网络(GANs)的潜在空间和表达力丰富的扩散模型先验,我们的方法促进了各种三维应用,包括单视图重建、高多样性生成和开放域中的连续三维插值。实验结果表明,与以往的工作相比,我们的流程在生成质量和多样性方面表现出更强的优势。
Dec, 2023
介绍了 PipeFusion 的一种新方法,利用多 GPU 并行性来解决扩散变压器(DiT)模型生成高分辨率图像的高计算和延迟挑战。通过分割图像并在多个设备上分布网络层,以管道并行的方式编排通信和计算,利用相邻扩散步骤输入的高相似性,通过重用一步陈旧的特征图为当前步骤提供上下文,实验结果表明,PipeFusion 能够在现有 DiT 并行方法无法满足 OOM 的情况下生成更高的图像分辨率。PipeFusion 显著降低了所需的通信带宽,使 DiT 推理能够在通过 PCIe 连接的 GPU 上托管,而不是更昂贵的 NVLink 基础结构,从而大幅降低了为服务 DiT 模型的整体运营费用。我们的代码公开可用于 https:// 所提供的 URL。
May, 2024
通过利用预训练的潜在扩散模型的生成特征,我们引入了一种名为 LADD 的新的蒸馏方法,它简化了训练并提高了性能,实现了高分辨率的多纵横比图像合成。我们将 LADD 应用于 Stable Diffusion 3 (8B) 以获得 SD3-Turbo,这是一个快速模型,仅使用四个无导向采样步骤就能达到与现有技术文本到图像生成器相当的性能。此外,我们还系统地研究了其扩展行为,并展示了 LADD 在图像编辑和修复等各种应用中的有效性。
Mar, 2024
通过利用大规模的文本到图像扩散模型进行数据提炼,我们提出了一种更高效的方法,通过精细调整通用化特征的基础生成对抗网络模型,而不是重新训练整个基础模型,并采用简单但有效的秩搜索过程来进行低秩适应,从而显著减少了培训成本和与每个概念相关的存储,使得移动设备能够高效地实现实时高质量的图像编辑。
Jan, 2024
本研究使用 Sliced Wasserstein Distance 开发了一种新的算法,能在两个图像之间显式快速地最小化贴片分布之间的距离,从而消除传统计算机视觉算法的计算难度,并能在几秒钟内生成高质量的图像。
Mar, 2022
利用 Wasserstein 距离进行数据集简化,通过嵌入合成数据到预训练分类模型的特征空间进行分布匹配,实现了数据集简化的新的最先进性能。
Nov, 2023