时钟扩散:基于模型步骤提炼的高效生成
利用连续动力系统设计一种新型去噪网络,以提高扩散模型的参数效率、收敛速度和噪声鲁棒性。与基准模型相比,该模型具有约四分之一的参数量和百分之三十的浮点操作数(FLOPs),推理速度提高了 70%,并且收敛到了更好的质量解。
Oct, 2023
该研究通过引入高效网络架构和步骤蒸馏等技术,提出了一种通用的方法,首次实现在移动设备上以不到 2 秒的速度运行文本到图像扩散模型。该模型可以使用户自己创作图像,而不需要高端 GPU 或云端推理,这将在内容创作方面具有重要作用。
Jun, 2023
提出了一种名为 Step-Adaptive Training 的创新训练策略,通过在初始阶段训练一个基础去噪模型来涵盖所有时间步长,然后将时间步长分成不同的组,在每个组内进行微调以实现专门的去噪能力,这种方法不仅提高了模型性能,还显著降低了计算成本。
Dec, 2023
本论文提出了一种高效、快速和多功能的蒸馏方法,Flash Diffusion,用于加速预训练扩散模型的生成,在 COCO2014 和 COCO2017 数据集上,在少量步骤的图像生成方面表现出最先进的 FID 和 CLIP-Score 性能,只需几个 GPU 小时的训练和比现有方法少得多的可训练参数。
Jun, 2024
Diffusion models have gained attention in image synthesis, and this paper introduces DeepCache, a training-free paradigm that accelerates diffusion models by capitalizing on temporal redundancy in denoising steps and achieving a speedup factor of 2.3x for Stable Diffusion v1.5 and 4.1x for LDM-4-G without significant decline in CLIP Score or FID on ImageNet.
Dec, 2023
我们提出了一种有效的去噪扩散模型,用于生成高分辨率图像 (例如 1024x512),该模型是在小尺寸图像块 (例如 64x64) 上训练的。我们的算法名为 Patch-DM,其中设计了一种新的特征拼贴策略,以避免合成大尺寸图像时的边界伪影。通过特征拼贴,我们可以系统地裁剪并组合相邻图像块的部分特征来预测移位图像块的特征,从而在图像块特征空间中的重叠区域中实现整个图像的无缝生成。Patch-DM 在我们新收集的自然图像数据集 (1024x512) 以及标准基准较小尺寸 (256x256) 上产生了高质量的图像合成结果,包括 LSUN-Bedroom、LSUN-Church 和 FFHQ。我们将我们的方法与以前的基于图像块的生成方法进行了比较,并在所有四个数据集上获得了最先进的 FID 分数。此外,与经典的扩散模型相比,Patch-DM 还减少了内存复杂度。
Aug, 2023
通过对网络层的行为研究,我们发现图像去噪网络中的许多层计算是多余的,基于此,引入块缓存以加快推理速度,并提出一种基于每个块变化的自动确定缓存调度的技术。在实验中,我们通过 FID、人工评估和定性分析展示了块缓存在保持相同计算成本的前提下生成具有更高视觉质量的图像。
Dec, 2023
该论文介绍了一种名为 Denoising Diffusion Step-aware Models (DDSM) 的新型框架,通过使用一系列根据每个生成步骤重要性进行自适应调整的神经网络,以进化搜索的方式解决了生成过程中存在的整体网络计算的瓶颈问题,有效地提高了扩散模型的效率,并且可以与其他以效率为目标的扩散模型进行无缝集成,从而扩大了计算节约的范围,同时不影响生成质量。
Oct, 2023
扩散模型在图像生成和编辑领域取得了显著的成功。我们提出了一种创新的框架,其中包含一个修正模块,用残差特征调节扩散模型权重,以填补编辑过程中准确性的差距。此外,我们引入了一种新的学习范式,旨在在编辑过程中最小化错误传播。通过大量实验证明,我们的提议框架和训练策略在各种去噪步骤下实现了高保真的重建和编辑结果,并在定量指标和质量评估方面表现出色。此外,我们还通过图像到图像的转换和跨领域图像编辑等多个应用探索了模型的泛化能力。
Dec, 2023
本文介绍了一种名为选择性扩散蒸馏(SDD)的新框架,其在图像处理任务中克服了扩散模型的权衡问题,通过在扩散模型指导下训练前馈图像操作网络和适当选择语义相关的时间步长,获得了图像的保真度和可编辑性。
Jul, 2023