可扩展的 Transformer 扩散模型
本文介绍了基于状态空间架构构建扩散模型的新探索,通过训练扩散模型用于图像数据,使用状态空间骨干替代传统的 U-Net 骨干,处理原始补丁或潜在空间的图像。通过对 DiS 的评估,包括无条件和类条件的图像生成场景,发现 DiS 在与同等大小的基于 CNN 或变压器的 U-Net 架构相比具有可比甚至更好的性能。此外,我们还分析了 DiS 的可扩展性,通过 Gflops 量化前向传递复杂性进行评估。通过增加深度 / 宽度或增加输入令牌的方式获得更高 Gflops 的 DiS 模型,始终表现出更低的 FID。在潜在空间中,DiS-H/2 模型在 256x256 和 512x512 分辨率下,达到了类条件 ImageNet 基准的性能水平,并显著减轻了计算负担。
Feb, 2024
我们提出了 TerDiT,一种针对具有 transformer 的三态扩散模型的量化感知训练(QAT)和有效部署方案,致力于探索大规模 DiT 模型的高效部署策略,展示了从头开始训练极低比特扩散变压器模型的可行性,同时保持与全精度模型相比有竞争力的图像生成能力。
May, 2024
本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
Dec, 2023
将变换器架构引入扩散任务,对潜在空间图像生成进行了研究,发现 U-Net 架构只在 U-Net 归纳偏差中略有优势,提出了 U 型扩散变换器(U-DiT)模型,通过降低计算量并在自注意力中进行令牌下采样,在性能上超过了 DiT-XL/2。
May, 2024
通过使用 DiffScaler,这篇论文提出了一种有效的扩展策略,使得单一预训练的扩散变压器模型能够快速适应不同的数据集,从而完成多样化的生成任务。
Apr, 2024
本论文提出了一种使用掩码 Transformer 训练大型扩散模型的高效方法,实现了在不牺牲生成性能的情况下,仅使用 31%的训练时间达到与最先进的扩散变压器模型相同性能的效果。
Jun, 2023
通过沙漏扩散变压器(HDiT),我们提出了一种图像生成模型,在像素空间中支持直接高分辨率(例如 $1024 imes 1024$)训练,具有与像素数量线性扩展的特点。利用已能够扩展到数十亿参数的 Transformer 架构,它在卷积 U-Net 的效率和 Transformer 的可扩展性之间建立了桥梁。HDiT 成功进行训练,无需典型的高分辨率训练技术,如多尺度架构、潜变量自编码器或自条件方法。我们证明 HDiT 在 ImageNet $256^2$ 上与现有模型竞争力相当,并在 FFHQ-$1024^2$ 上创造了扩散模型的最新技术水平。
Jan, 2024
该研究探索了用于图像和视频生成的基于 Transformer 的扩散模型,并介绍了 GenTron,它是一族使用基于 Transformer 的扩散的生成模型,扩展到文本到视频生成,并在人类评估中取得了显著的视觉质量改进。
Dec, 2023
本文基于 Gated Linear Attention Transformers 构建一个可用于扩展预训练扩散模型的简单、易于采用的解决方案,其在效率和效果上优于 Diffusion Transformers 模型。
May, 2024