基于扩散的文本到图像生成的可扩展性研究

CVPRApr, 2024

基于扩散的文本到图像生成的可扩展性研究

On the Scalability of Diffusion-based Text-to-Image Generation

Hao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie...

TL;DR通过对缩放去噪网络骨干和训练集的广泛割离实验，本研究探讨了扩大规模的扩散式文本到图像（T2I）模型的特性，发现在模型扩展方面，跨向量关注的位置和数量对现有 UNet 设计的性能具有差异性，增加 Transformer 模块对于提高文本和图像的对齐比增加通道数量更加参数有效。在数据扩展方面，我们发现训练集的质量和多样性比简单的数据集大小更重要，增加标题密度和多样性可以提高文本和图像的对齐性能和学习效率。最后，我们提供了预测文本和图像对齐性能的缩放函数，函数依赖于模型规模、计算和数据集大小。

Abstract

scaling up model and data size has been quite successful for the evolution of LLMs. However, the scaling law for the diffusion based text-to-image (T2I) models is not fully explored. It is also unclear how to eff

scaling diffusion based t2i models training set unet designs text-image alignment

发现论文，激发创造

适用于可变大小文本到图像合成的无需训练扩散模型适应

通过引入一个缩放因子，适应各种尺寸和长宽比的图像，在保持视觉保真度的同时，改善了低分辨率图像上目标不完整和高分辨率图像上重复表示的问题。

Jun, 2023

稳定扩散 XL 的渐进式知识蒸馏以层级损失

通过降低模型大小和知识蒸馏，我们引入了两种简化的 Stable Diffusion XL 模型 (SSD-1B 和 Segmind-Vega)，并证明了在保持高质量生成能力的同时减少模型大小的有效性。

Jan, 2024

可扩展的 Transformer 扩散模型

本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer，通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性，并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型，后者在 256x256 基准测试上实现了先进的 FID (2.27)。

Dec, 2022

Diffscaler：增强扩散变压器的生成能力

通过使用 DiffScaler，这篇论文提出了一种有效的扩展策略，使得单一预训练的扩散变压器模型能够快速适应不同的数据集，从而完成多样化的生成任务。

Apr, 2024

面向任务的扩散模型压缩

通过减小模型大小和减少时间步长，我们探索了基于任务的方式压缩 I2I 模型，并将其应用于图像编辑和图像修复任务，取得了满意的输出质量以及模型大小和延迟的显著减少。

Jan, 2024

在微预算下从头开始的扩散训练

通过随机遮盖图像的一部分来降低计算成本，文章提出了一种使用低成本训练大规模 T2I 扩散变换器模型的方法，并在使用公开可用的图像训练时取得了与昂贵模型相媲美的性能。

Jul, 2024

SDXL：提高高分辨率图像合成的潜在扩散模型

SDXL 是一种潜在扩散模型，用于文本到图像的合成，其使用更大的 UNet 骨干网络以及多重新颖的调制方式和改进模型，且其结果竞争力与黑箱最先进的图像生成器相比具有显著提高。

Jul, 2023

MaxFusion: 文本 - 图像扩散模型中的即插即用多模态生成

本研究提出了一种名为 MaxFusion 的新策略，通过合并多个模型的对齐特征，为扩展到新模态条件的基于文本到图像生成模型提供了一个高效的伸缩方法。

Apr, 2024

AltDiffusion: 多语言文本到图像扩散模型

AltDiffusion 是一种新颖的多语种 T2I 扩散模型，它支持 18 种不同语言，并且在生成高质量图像方面优于现有的 T2I 模型，尤其是在理解文化特定概念方面。

Aug, 2023

文本到图像扩散模型的架构压缩

通过引入去块知识蒸馏稳定扩散模型（BK-SDMs）的传统架构压缩技术，从而使其可用于通用 T2I 合成，我们从 SDMs 的 U-Net 中消除了几个残差和注意块，显著地减少了参数数量、MACs 和延迟，使用少量的资源进行蒸馏式预训练，使我们的紧凑模型能够模仿原始 SDM，并在零样本 MS-COCO 基准测试中对抗更大的多十亿参数模型，同时还演示了我们轻量级预训练模型在个性化生成中的适用性。

May, 2023