对抗扩散蒸馏
通过利用预训练的潜在扩散模型的生成特征,我们引入了一种名为 LADD 的新的蒸馏方法,它简化了训练并提高了性能,实现了高分辨率的多纵横比图像合成。我们将 LADD 应用于 Stable Diffusion 3 (8B) 以获得 SD3-Turbo,这是一个快速模型,仅使用四个无导向采样步骤就能达到与现有技术文本到图像生成器相当的性能。此外,我们还系统地研究了其扩展行为,并展示了 LADD 在图像编辑和修复等各种应用中的有效性。
Mar, 2024
我们提出了一种扩散蒸馏方法,基于 SDXL,在一步 / 几步 1024 像素的文本到图像生成任务上达到了新的最先进水平。我们的方法结合了渐进式和对抗性蒸馏来在质量和模态覆盖之间找到平衡。在本文中,我们讨论了理论分析、判别器设计、模型公式和训练技术。我们以 LoRA 和完整的 UNet 权重形式开源了我们蒸馏的 SDXL-Lightning 模型。
Feb, 2024
AddSR 通过结合蒸馏和 ControlNet 的思想,提出了一种基于预测自优化策略和时间步自适应的损失函数的盲超分辨率方法,可以在更短的时间内生成更好的恢复结果。
Apr, 2024
AdaDiff 是一个轻量级框架,通过学习实例特定的步骤使用策略,优化了扩散模型的图像 / 视频生成过程,以最大化平衡推理时间和生成质量的回报函数,并在减少推理时间至少 33% 的情况下实现与基准方法相似的视觉质量。
Nov, 2023
本文介绍了一种名为选择性扩散蒸馏(SDD)的新框架,其在图像处理任务中克服了扩散模型的权衡问题,通过在扩散模型指导下训练前馈图像操作网络和适当选择语义相关的时间步长,获得了图像的保真度和可编辑性。
Jul, 2023
我们提出了一种方法将复杂的多步扩散模型提炼为单步有条件生成对抗网络学生模型,从而大大加速推理过程,同时保持图像质量。我们的方法将扩散提炼解释为一种对应的图像到图像转换任务,使用扩散模型 ODE 轨迹的噪声到图像对。为了进行高效的回归损失计算,我们提出了一种在扩散模型的潜空间中直接操作的感知损失 E-LatentLPIPS,利用增强的集合。此外,我们改进了扩散模型,构建了一个多尺度鉴别器,具有文本对齐损失,建立了一种有效的基于条件生成对抗网络的公式。即使考虑到数据集构建成本,E-LatentLPIPS 也比许多现有的提炼方法更高效。我们证明我们的一步生成器在零样本 COCO 基准测试上优于最先进的一步扩散提炼模型 - DMD、SDXL-Turbo 和 SDXL-Lightning。
May, 2024
本文提出了基于敌对去噪扩散模型(ADDM)的研究。ADDM 基于去噪扩散概率模型(DDPM),并通过敌对学习进行互补训练。实验结果表明,ADDM 在无监督 MRI 图像异常检测上表现优于现有的基于生成模型的无监督异常检测方法。
Dec, 2023
扩散模型的实例教学方法和分布教学方法在图像生成模型方面取得了显著的研究成果,提出的分布教学方法在减少训练图像数量的同时取得了最先进的结果,提高了对高效图像生成模型的理解并为各种应用提供了可扩展的框架。
May, 2024
本文介绍了直接去噪扩散模型(DDDM):一种生成逼真图像的简单且通用方法,具有少步采样的特点,同时保留了多步采样以获得更好的性能。DDDM 不需要精心设计的采样器或预训练的蒸馏模型,而是以自身的先前训练迭代生成的估计目标为条件进行扩散模型的训练,通过考虑前一时间步生成的样本来引导迭代生成过程。我们还提出了 Pseudo-LPIPS,一种对各种超参数值更鲁棒的新型度量损失。尽管简单,该方法在基准数据集上表现出强大的性能。我们的模型在 CIFAR-10 上分别以一步采样和两步采样的 FID 分数为 2.57 和 2.33,超越了 GAN 和蒸馏基模型获得的分数。通过将采样扩展到 1000 步,我们将 FID 分数进一步降低到 1.79,与文献中的最先进方法相一致。在 ImageNet 64x64 上,我们的方法与主要模型相当。
May, 2024
利用预训练扩散模型的一种新型学习方法,直接在对抗性的方式下对多视图渲染与扩散先验之间的分布差异进行建模,从而实现了高保真度和逼真度的三维内容生成,条件为单张图像和提示。通过利用生成对抗网络(GANs)的潜在空间和表达力丰富的扩散模型先验,我们的方法促进了各种三维应用,包括单视图重建、高多样性生成和开放域中的连续三维插值。实验结果表明,与以往的工作相比,我们的流程在生成质量和多样性方面表现出更强的优势。
Dec, 2023