具有等时扩散变压器的可扩展高分辨率像素空间图像合成

Jan, 2024

具有等时扩散变压器的可扩展高分辨率像素空间图像合成

Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers

Katherine Crowson, Stefan Andreas Baumann, Alex Birch, Tanishq Mathew Abraham, Daniel Z. Kaplan...

TL;DR通过沙漏扩散变压器（HDiT），我们提出了一种图像生成模型，在像素空间中支持直接高分辨率（例如 $1024 imes 1024$）训练，具有与像素数量线性扩展的特点。利用已能够扩展到数十亿参数的 Transformer 架构，它在卷积 U-Net 的效率和 Transformer 的可扩展性之间建立了桥梁。HDiT 成功进行训练，无需典型的高分辨率训练技术，如多尺度架构、潜变量自编码器或自条件方法。我们证明 HDiT 在 ImageNet $256^2$ 上与现有模型竞争力相当，并在 FFHQ-$1024^2$ 上创造了扩散模型的最新技术水平。

Abstract

We present the hourglass diffusion transformer (HDiT), an image generative model that exhibits linear scaling with pixel count, supporting training at →

hourglass diffusion transformer image generative model linear scaling high-resolution transformer architecture

发现论文，激发创造

可扩展的 Transformer 扩散模型

本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer，通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性，并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型，后者在 256x256 基准测试上实现了先进的 FID (2.27)。

Dec, 2022

DiffiT：用于图像生成的扩散视觉 Transformer

本文研究了视觉 transformer 在基于扩散的生成学习中的有效性，并提出了一种新的模型 Diffusion Vision Transformers（DiffiT），该模型在多个条件和无条件综合任务中取得了最新的基准成绩，生成了高保真度图片。

Dec, 2023

Inf-DiT: 用内存高效的扩散变换方法上采样任意分辨率图像

通过引入单向注意力机制和 DiT 结构，我们提出了一种自适应调整推理过程中的内存负荷和处理全局依赖性的无限超分模型，实验结果表明，在生成超高分辨率图像方面，我们的模型在机器和人类评估方面都达到了最先进的性能。与常用的 UNet 结构相比，在生成 4096*4096 图像时，我们的模型可以节省超过 5 倍的内存。

May, 2024

DiffuseHigh: 基于结构引导的无训练渐进式高分辨率图像合成

现有大规模扩散模型受限于生成 1K 分辨率图像，本文提出基于渐进方法的创新研究，在不增加额外训练成本的情况下，利用低分辨率图像辅助生成高分辨率图像，实现了对生成模型超越原有能力的探索和验证。

Jun, 2024

ScaleCrafter：使用扩散模型进行零调节高分辨率视觉生成

通过重新扩张限制性卷积感知域以及引入分散卷积和抑噪无监督引导的方法，无需任何训练或优化，实现了超高分辨率图像生成，并解决了物体重复和不合理结构的问题，表现出卓越的性能。此外，该方法还提示了低分辨率训练模型可以直接用于高分辨率图像生成的可能性，为未来的超高分辨率图像合成研究提供了新的思路。

Oct, 2023

通过多分辨率扩散模型减轻图像生成中的失真

该研究提出了一种创新的增强扩散模型的方法，通过整合新颖的多分辨率网络和时间相关的层归一化，以提高高保真图像生成的有效性。

Jun, 2024

DiG: 基于门控线性注意力的可扩展高效扩散模型

本文基于 Gated Linear Attention Transformers 构建一个可用于扩展预训练扩散模型的简单、易于采用的解决方案，其在效率和效果上优于 Diffusion Transformers 模型。

May, 2024

TerDiT: 基于 Transformer 的三元扩散模型

我们提出了 TerDiT，一种针对具有 transformer 的三态扩散模型的量化感知训练（QAT）和有效部署方案，致力于探索大规模 DiT 模型的高效部署策略，展示了从头开始训练极低比特扩散变压器模型的可行性，同时保持与全精度模型相比有竞争力的图像生成能力。

May, 2024

PixArt-Σ: 4K 文字到图像生成的强弱训练扩散变压器

通过引入 PixArt-Sigma，一种 Diffusion Transformer 模型（DiT），本文能够直接生成 4K 分辨率的图像，相比于前作 PixArt-alpha，PixArt-Sigma 在图像质量方面有显著提高，与文本提示的对齐也更好，并且通过 “由弱到强” 的训练过程，PixArt-Sigma 实现了训练效率的提升。

Mar, 2024

贪婪增长实现高分辨率像素级扩散模型

我们提出了一种非常简单的贪婪生长方法，用于稳定训练大规模、高分辨率模型的像素级图像扩散模型，避免了级联超分辨率组件的需求。实现这一目标的关键在于仔细预训练核心组件，即负责文本到图像对齐和高分辨率渲染的组件。在利用核心模型进行扩展的基础上，我们提出了一种贪婪算法，将架构扩展到高分辨率端到端模型，同时保持预训练表示的完整性，稳定训练过程，并减少对大规模高分辨率数据集的需求。这使得我们能够生成高分辨率图像的单阶段模型，而无需超分辨率级联。我们的主要结果基于公共数据集，表明我们能够训练出高达 80 亿参数的非级联模型，而无需进一步的正则化方案。Vermeer 是我们的完整管道模型，使用内部数据集训练以生成 1024x1024 图像，在 SDXL 上，相较于人类评估者的 21.4％，它被 44.0％的评估者选择。

May, 2024