半隐式去噪扩散模型(SIDDM)
本文描述了一种更高效的迭代隐式概率模型 —— 去噪扩散隐式模型(DDIMs),通过构建一类非马尔科夫扩散过程来加速采样过程,相对于去噪扩散概率模型(DDPMs)可以使采样速度提升 10 倍至 50 倍。这种模型可以用于图像生成和语义意义化的图像内插。
Oct, 2020
通过对 DDPM 模型进行简单修改,可以在保持高质量样本的同时达到具有竞争力的对数似然值,并学习反向扩散过程的方差,从而使用数量级更少的正向传递采样。使用精度和召回率比较 DDPM 和 GAN 模型的性能,并证明这些模型的样本质量和似然值可以与模型容量和训练计算平稳地提高。
Feb, 2021
本篇论文提出了一种基于 DDPM 的新型框架,用于语义图像合成,通过条件扩散模型来处理语义布局与噪声图像,而引入分类器自由的引导采样策略来进一步提高了生成质量和语义可解释性。
Jun, 2022
本文提出了一种名为 DDM 的扩散模型,通过将复杂的扩散过程分解为两个相对简单的过程,来提高生成效果和速度,它通过显式转移概率近似图像分布,并通过标准维纳过程控制噪声路径;文章还提出了一个新的 DPM 训练目标,能够分别预测噪声和图像成分,同时,DDM 的逆向去噪公式可以自然地支持少数的生成步骤(不需要基于 ODE 的加速器),实验结果表明,DDM 在更少的函数评估方面优于以前的 DPM。
Jun, 2023
本文介绍了直接去噪扩散模型(DDDM):一种生成逼真图像的简单且通用方法,具有少步采样的特点,同时保留了多步采样以获得更好的性能。DDDM 不需要精心设计的采样器或预训练的蒸馏模型,而是以自身的先前训练迭代生成的估计目标为条件进行扩散模型的训练,通过考虑前一时间步生成的样本来引导迭代生成过程。我们还提出了 Pseudo-LPIPS,一种对各种超参数值更鲁棒的新型度量损失。尽管简单,该方法在基准数据集上表现出强大的性能。我们的模型在 CIFAR-10 上分别以一步采样和两步采样的 FID 分数为 2.57 和 2.33,超越了 GAN 和蒸馏基模型获得的分数。通过将采样扩展到 1000 步,我们将 FID 分数进一步降低到 1.79,与文献中的最先进方法相一致。在 ImageNet 64x64 上,我们的方法与主要模型相当。
May, 2024
通过在扩散模型中引入两个辨别器(扩散辨别器和频谱图辨别器),我们提出了一种音频合成模型,其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS,并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。
Aug, 2023
该论文介绍了一种名为 Denoising Diffusion Step-aware Models (DDSM) 的新型框架,通过使用一系列根据每个生成步骤重要性进行自适应调整的神经网络,以进化搜索的方式解决了生成过程中存在的整体网络计算的瓶颈问题,有效地提高了扩散模型的效率,并且可以与其他以效率为目标的扩散模型进行无缝集成,从而扩大了计算节约的范围,同时不影响生成质量。
Oct, 2023
通过将去噪步骤直接整合到模型的架构中,本研究提出了一种新方法,将扩散模型与生成对抗网络结合起来,通过知识蒸馏实现更高效的训练和评估,从而减少了所需的参数和去噪步骤,提高了测试时的采样速度。
May, 2024