可扩展的 Transformer 扩散模型

Dec, 2022

Scalable Diffusion Models with Transformers

William Peebles, Saining Xie

TL;DR本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer，通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性，并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型，后者在 256x256 基准测试上实现了先进的 FID (2.27)。

Abstract

We explore a new class of diffusion models based on the transformer architecture. We train latent diffusion models of images, replacing the commonly-used U-Net backbone with a transformer that operates on latent patches. We analyze the →

diffusion transformers transformer architecture latent diffusion models scalability fid

发现论文，激发创造

具有状态空间支撑的可扩展扩散模型

本文介绍了基于状态空间架构构建扩散模型的新探索，通过训练扩散模型用于图像数据，使用状态空间骨干替代传统的 U-Net 骨干，处理原始补丁或潜在空间的图像。通过对 DiS 的评估，包括无条件和类条件的图像生成场景，发现 DiS 在与同等大小的基于 CNN 或变压器的 U-Net 架构相比具有可比甚至更好的性能。此外，我们还分析了 DiS 的可扩展性，通过 Gflops 量化前向传递复杂性进行评估。通过增加深度 / 宽度或增加输入令牌的方式获得更高 Gflops 的 DiS 模型，始终表现出更低的 FID。在潜在空间中，DiS-H/2 模型在 256x256 和 512x512 分辨率下，达到了类条件 ImageNet 基准的性能水平，并显著减轻了计算负担。

Feb, 2024

TerDiT: 基于 Transformer 的三元扩散模型

我们提出了 TerDiT，一种针对具有 transformer 的三态扩散模型的量化感知训练（QAT）和有效部署方案，致力于探索大规模 DiT 模型的高效部署策略，展示了从头开始训练极低比特扩散变压器模型的可行性，同时保持与全精度模型相比有竞争力的图像生成能力。

May, 2024

DiffiT：用于图像生成的扩散视觉 Transformer

本文研究了视觉 transformer 在基于扩散的生成学习中的有效性，并提出了一种新的模型 Diffusion Vision Transformers（DiffiT），该模型在多个条件和无条件综合任务中取得了最新的基准成绩，生成了高保真度图片。

Dec, 2023

U-DiTs：在 U 形扩散变压器中降采样 Token

将变换器架构引入扩散任务，对潜在空间图像生成进行了研究，发现 U-Net 架构只在 U-Net 归纳偏差中略有优势，提出了 U 型扩散变换器（U-DiT）模型，通过降低计算量并在自注意力中进行令牌下采样，在性能上超过了 DiT-XL/2。

May, 2024

Diffscaler：增强扩散变压器的生成能力

通过使用 DiffScaler，这篇论文提出了一种有效的扩展策略，使得单一预训练的扩散变压器模型能够快速适应不同的数据集，从而完成多样化的生成任务。

Apr, 2024

掩蔽变换器应用于扩散模型快速训练

本论文提出了一种使用掩码 Transformer 训练大型扩散模型的高效方法，实现了在不牺牲生成性能的情况下，仅使用 31％的训练时间达到与最先进的扩散变压器模型相同性能的效果。

Jun, 2023

具有等时扩散变压器的可扩展高分辨率像素空间图像合成

通过沙漏扩散变压器（HDiT），我们提出了一种图像生成模型，在像素空间中支持直接高分辨率（例如 $1024 imes 1024$）训练，具有与像素数量线性扩展的特点。利用已能够扩展到数十亿参数的 Transformer 架构，它在卷积 U-Net 的效率和 Transformer 的可扩展性之间建立了桥梁。HDiT 成功进行训练，无需典型的高分辨率训练技术，如多尺度架构、潜变量自编码器或自条件方法。我们证明 HDiT 在 ImageNet $256^2$ 上与现有模型竞争力相当，并在 FFHQ-$1024^2$ 上创造了扩散模型的最新技术水平。

Jan, 2024

GenTron：深入探究扩散变压器在图像和视频生成中的应用

该研究探索了用于图像和视频生成的基于 Transformer 的扩散模型，并介绍了 GenTron，它是一族使用基于 Transformer 的扩散的生成模型，扩展到文本到视频生成，并在人类评估中取得了显著的视觉质量改进。

Dec, 2023

DiG: 基于门控线性注意力的可扩展高效扩散模型

本文基于 Gated Linear Attention Transformers 构建一个可用于扩展预训练扩散模型的简单、易于采用的解决方案，其在效率和效果上优于 Diffusion Transformers 模型。

May, 2024

通过多分辨率扩散模型减轻图像生成中的失真

该研究提出了一种创新的增强扩散模型的方法，通过整合新颖的多分辨率网络和时间相关的层归一化，以提高高保真图像生成的有效性。

Jun, 2024