学习缓存:通过层缓存加速扩散变压器
通过对网络层的行为研究,我们发现图像去噪网络中的许多层计算是多余的,基于此,引入块缓存以加快推理速度,并提出一种基于每个块变化的自动确定缓存调度的技术。在实验中,我们通过 FID、人工评估和定性分析展示了块缓存在保持相同计算成本的前提下生成具有更高视觉质量的图像。
Dec, 2023
Diffusion models have gained attention in image synthesis, and this paper introduces DeepCache, a training-free paradigm that accelerates diffusion models by capitalizing on temporal redundancy in denoising steps and achieving a speedup factor of 2.3x for Stable Diffusion v1.5 and 4.1x for LDM-4-G without significant decline in CLIP Score or FID on ImageNet.
Dec, 2023
本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer,通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性,并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型,后者在 256x256 基准测试上实现了先进的 FID (2.27)。
Dec, 2022
通过调查 DiT 块与图像生成之间的相关性,发现 DiT 的前述块与生成图像的轮廓有关,而后述块与细节有关。基于此,我们提出了一个全面的无需训练的推断加速框架 Delta-DiT,采用设计的缓存机制来加速早期采样阶段的后述 DiT 块和后期阶段的前述 DiT 块。在 PIXART-alpha 和 DiT-XL 上的大量实验证明,Delta-DiT 在 20 步生成时可以实现 1.6 倍加速,并在大多数情况下性能提高。在 4 步一致模型生成和更具挑战性的 1.12 倍加速的情况下,我们的方法显著优于现有方法。我们的代码将公开提供。
Jun, 2024
本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
Dec, 2023
基于扩散模型的转移性研究,观察到转移能力的遗忘趋势,并提出了 Diff-Tuning 方法,通过保留预训练知识并丢弃噪声,实现对下游生成任务的改进和加速。
Jun, 2024
我们提出了一种统一的框架来在扩散模型中实现有效的图像生成,其中搜索最佳时间步骤序列和压缩模型架构,无需进一步的训练。通过引入两阶段进化算法和使用生成和真实样本之间的 FID 评分来加速搜索过程,该方法在仅使用几个时间步骤时实现了出色的性能。
Sep, 2023
提出了一种名为 Step-Adaptive Training 的创新训练策略,通过在初始阶段训练一个基础去噪模型来涵盖所有时间步长,然后将时间步长分成不同的组,在每个组内进行微调以实现专门的去噪能力,这种方法不仅提高了模型性能,还显著降低了计算成本。
Dec, 2023
通过使用 DiffScaler,这篇论文提出了一种有效的扩展策略,使得单一预训练的扩散变压器模型能够快速适应不同的数据集,从而完成多样化的生成任务。
Apr, 2024
该研究论文介绍了一种名为近似缓存的技术,通过重用在先前图像生成中创建的中间噪声状态来减少迭代去噪步骤,从而降低基于提示的图像生成的计算和延迟,提供高品质图像生成的最优化解决方案。
Dec, 2023