文本到图像扩散模型的架构压缩

May, 2023

On Architectural Compression of Text-to-Image Diffusion Models

Bo-Kyeong Kim, Hyoung-Kyu Song, Thibault Castells, Shinkook Choi

TL;DR通过引入去块知识蒸馏稳定扩散模型（BK-SDMs）的传统架构压缩技术，从而使其可用于通用 T2I 合成，我们从 SDMs 的 U-Net 中消除了几个残差和注意块，显著地减少了参数数量、MACs 和延迟，使用少量的资源进行蒸馏式预训练，使我们的紧凑模型能够模仿原始 SDM，并在零样本 MS-COCO 基准测试中对抗更大的多十亿参数模型，同时还演示了我们轻量级预训练模型在个性化生成中的适用性。

Abstract

Exceptional text-to-image (T2I) generation results of stable diffusion models (SDMs) come with substantial computational demands. To resolve this issue, recent research on efficient SDMs has prioritized reducing the number of sampling steps and utilizing network quantization. Orthogona

text-to-image generation stable diffusion models architectural compression knowledge distillation pretraining

发现论文，激发创造

A-SDM: 通过冗余消除和性能优化加速稳定扩散

通过模型架构调整、冗余剪枝、全局 - 局部交互注意机制和语义感知监督等方法，本研究提出了一种有效训练轻量级模型、并在有限资源下提高模型速度的方法。

Dec, 2023

面向任务的扩散模型压缩

通过减小模型大小和减少时间步长，我们探索了基于任务的方式压缩 I2I 模型，并将其应用于图像编辑和图像修复任务，取得了满意的输出质量以及模型大小和延迟的显著减少。

Jan, 2024

EdgeFusion：设备端文本到图像生成

通过对稳定扩散（SD）的高效计算负担进行改进，我们提出了两种策略，即利用先进的生成模型和为 LCM 定制的先进蒸馏流程，通过量化、剖析和资源有限的边缘设备上的部署，实现了在仅两步、低于一秒的延迟下，生成具有照片写实风格、与文本对齐的图像。

Apr, 2024

稳定扩散 XL 的渐进式知识蒸馏以层级损失

通过降低模型大小和知识蒸馏，我们引入了两种简化的 Stable Diffusion XL 模型 (SSD-1B 和 Segmind-Vega)，并证明了在保持高质量生成能力的同时减少模型大小的有效性。

Jan, 2024

A-SDM：加速稳定扩散通过模型组装和特征继承策略

通过模型组装策略重构轻量级模型，以及通过特征继承策略加快 SDM 生成速度。

May, 2024

KOALA：自注意力在潜在扩散模型知识蒸馏中的重要性 —— 用于高效内存和快速图像合成

通过蒸馏 SDXL 模型的知识，我们提出了一种高效的文本到图像综合的潜在扩散模型，其核心是通过设计有效的 U-Net 和自注意力的知识蒸馏策略，使 KOALA 模型在减小模型尺寸的同时，仍保持良好的生成质量，相较于 SDXL 模型有两倍以上的速度，可以在资源有限的环境中成为一种具有成本效益的替代选择。

Dec, 2023

基于扩散的文本到图像生成的可扩展性研究

通过对缩放去噪网络骨干和训练集的广泛割离实验，本研究探讨了扩大规模的扩散式文本到图像（T2I）模型的特性，发现在模型扩展方面，跨向量关注的位置和数量对现有 UNet 设计的性能具有差异性，增加 Transformer 模块对于提高文本和图像的对齐比增加通道数量更加参数有效。在数据扩展方面，我们发现训练集的质量和多样性比简单的数据集大小更重要，增加标题密度和多样性可以提高文本和图像的对齐性能和学习效率。最后，我们提供了预测文本和图像对齐性能的缩放函数，函数依赖于模型规模、计算和数据集大小。

Apr, 2024

SnapFusion：移动设备上的文本到图像扩散模型，两秒钟内完成

该研究通过引入高效网络架构和步骤蒸馏等技术，提出了一种通用的方法，首次实现在移动设备上以不到 2 秒的速度运行文本到图像扩散模型。该模型可以使用户自己创作图像，而不需要高端 GPU 或云端推理，这将在内容创作方面具有重要作用。

Jun, 2023

SDXS：带图像条件的实时单步潜变扩散模型

通过模型微型化、减少采样步骤和知识蒸馏的双重方法，减小模型延迟，本研究提出了一种在图像生成领域优化扩散模型性能的方法。通过简化 U-Net 和图像解码器的结构并引入一步式 DM 训练技术，利用特征匹配和得分蒸馏，我们实现了两个模型 SDXS-512 和 SDXS-1024，在单个 GPU 上实现了约 100 帧每秒（比 SD v1.5 快 30 倍）和 30 帧每秒（比 SDXL 快 60 倍）的推理速度。此外，我们的训练方法还在图像条件控制方面具有潜在的应用，可以实现高效的图像转换。

Mar, 2024

LAPTOP-Diff：层剪枝和规范蒸馏用于压缩扩散模型

在 AIGC 时代，通过引入层修剪和标准化蒸馏（LAPTOP-Diff）压缩扩散模型的 U-Net，我们实现了 50% 的修剪比例下 PickScore 仅下降 4.0%，优于其他方法的 8.2%。

Apr, 2024