Frido: 复杂场景图像综合的特征金字塔扩散

AAAIAug, 2022

Frido: 复杂场景图像综合的特征金字塔扩散

Frido: Feature Pyramid Diffusion for Complex Scene Image Synthesis

Wan-Cyuan Fan, Yen-Chun Chen, Dongdong Chen, Yu Cheng, Lu Yuan...

TL;DR本文介绍一种特征金字塔扩散模型 Frido，通过多尺度的粗到细的去噪过程将输入图像分解为尺度依赖型向量量化特征，并在图像输出时进行粗到细的门控操作以产生图像输出。通过在多尺度表示学习阶段利用其他输入条件如文本、场景图或图像布局，Frido 还可以用于条件或跨模态图像合成。作者在文中对各种无条件和有条件的图像合成任务进行了广泛的实验，包括从文本到图像的合成、布局到图像、场景图到图像以及标签到图像等，取得了五个基准测试中的最新的 FID 分数，包括 COCO 和 OpenImages 上的布局到图像、COCO 和 Visual Genome 上的场景图到图像以及 COCO 上的标签到图像。

Abstract

Diffusion models (DMs) have shown great potential for high-quality image synthesis. However, when it comes to producing images with complex scenes, how to properly describe both image global structures and object details remains a challenging task. In this paper, we present Frido, a Feature Pyramid Diffusion model performing a multi-scale coarse-to-fine deno

feature pyramid diffusion model image synthesis multi-scale representation learning conditional image synthesis fid score

发现论文，激发创造

金字塔扩散用于精细化的 3D 大场景生成

本文提出了金字塔离散扩散（PDD）模型，通过采用逐层生成的粗到精的多尺度模型，能够在资源限制下生成高质量的 3D 场景，而不需要额外的数据源。在无条件和有条件生成方面的实验表明，该模型在生成逼真而详细的 3D 场景方面表现出了很好的效果和鲁棒性。我们的代码将向公众开放。

Nov, 2023

基于去噪扩散模型的人物图像合成

使用去噪扩散模型，我们提出了一种名为 PIDM 的人体图像扩散模型，解决了复杂的转换问题，并展示了在两个大型基准测试中的显着结果，以及如何在下游任务中使用生成的图像。

Nov, 2022

高保真基于扩散的图像编辑

扩散模型在图像生成和编辑领域取得了显著的成功。我们提出了一种创新的框架，其中包含一个修正模块，用残差特征调节扩散模型权重，以填补编辑过程中准确性的差距。此外，我们引入了一种新的学习范式，旨在在编辑过程中最小化错误传播。通过大量实验证明，我们的提议框架和训练策略在各种去噪步骤下实现了高保真的重建和编辑结果，并在定量指标和质量评估方面表现出色。此外，我们还通过图像到图像的转换和跨领域图像编辑等多个应用探索了模型的泛化能力。

Dec, 2023

高保真人物中心的主体到图像合成

人物为中心的图像生成方法由于对常规预训练扩散进行微调导致训练不平衡，同时学习场景和人物生成会降低质量。本文提出了 Face-diffuser，一个协作生成管道，通过专门的预训练扩散模型和新颖的机制 (SNF) 消除训练不平衡并提高生成质量。

Nov, 2023

针对高分辨率图像合成的修复去噪扩散模型

我们提出了一种有效的去噪扩散模型，用于生成高分辨率图像 (例如 1024x512)，该模型是在小尺寸图像块 (例如 64x64) 上训练的。我们的算法名为 Patch-DM，其中设计了一种新的特征拼贴策略，以避免合成大尺寸图像时的边界伪影。通过特征拼贴，我们可以系统地裁剪并组合相邻图像块的部分特征来预测移位图像块的特征，从而在图像块特征空间中的重叠区域中实现整个图像的无缝生成。Patch-DM 在我们新收集的自然图像数据集 (1024x512) 以及标准基准较小尺寸 (256x256) 上产生了高质量的图像合成结果，包括 LSUN-Bedroom、LSUN-Church 和 FFHQ。我们将我们的方法与以前的基于图像块的生成方法进行了比较，并在所有四个数据集上获得了最先进的 FID 分数。此外，与经典的扩散模型相比，Patch-DM 还减少了内存复杂度。

Aug, 2023

DDRF: 遥感图像融合的去噪扩散模型

本篇文章将去噪扩散模型引入图像融合领域，将融合任务作为图像到图像的转换，设计两种不同的条件注入模块，即风格转换调制和小波调制，注入粗粒度风格信息和细粒度高低频信息来生成融合图像，并讨论去噪扩散模型在图像融合中的残差学习和目标函数选择。基于定量和定性评估的广泛实验结果表明，在图像融合任务中具有最先进的结果和良好的泛化性能，希望本文可以激发其他工作的灵感，并深入了解该领域，以更好地将扩散模型应用于图像融合任务。

Apr, 2023

中继扩散：跨分辨率统一图像合成扩散过程

通过离散余弦变换的角度看，高分辨率产生图像的主要挑战在于 “在频率域中，相同的噪声水平在更高分辨率下会导致更高的信噪比”；本论文提出了中继扩散模型 (Relay Diffusion Model, RDM)，通过模糊扩散和块噪声将低分辨率图像或噪声转换为等效的高分辨率图像，使扩散过程能够在任意新分辨率或模型中无缝地继续进行，而无需从纯噪声或低分辨率条件重新启动；RDM 在 CelebA-HQ 的 FID 和 ImageNet 256x256 的 sFID 上取得了领先的成绩，明显超过 ADM、LDM 和 DiT 等之前的工作。

Sep, 2023

基于图像渲染的去噪传播

通过引入第一种能够快速进行真实世界三维场景的详细重建和生成的推广模型，我们在本研究中提出了三个贡献：首先，引入了一种新的神经场景表示方法 IB-planes，能够有效准确地表示大型三维场景，并在需要时动态分配更多容量以捕捉每张图像中可见的细节；其次，我们提出了一种去噪扩散框架，通过仅使用二维图像而不需要额外的监督信号（如掩码或深度）学习对这种新型三维场景表示的先验知识，从而支持三维重建和生成；第三，我们开发了一种避免将基于图像渲染与扩散模型集成时产生平凡三维解决方案的原则性方法，即通过丢弃某些图像的表示。我们在几个具有挑战性的真实和合成图像数据集上评估了该模型，并在生成、新视图合成和三维重建方面展示了优越的结果。

Feb, 2024

混合扩散用于 3D 室内场景合成

MiDiffusion 是一种新的混合离散 - 连续扩散模型架构，用于根据房间类型、平面图和可能的预存在对象合成逼真的室内 3D 场景，相比于自回归模型和扩散模型，在楼层条件下的 3D 场景合成表现出明显的优势，并可通过破坏和遮蔽策略处理部分对象约束，无需专门训练。

May, 2024

RenderDiffusion：用于 3D 重建、修补与生成的图像扩散

本文提出了 RenderDiffusion，这是第一个用于 3D 生成和推断的扩散模型，使用仅有的单眼 2D 监督进行训练，并采用新颖的图像去噪架构进行中间的三维表示，以提供强烈归纳结构，同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion，展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外，我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。

Nov, 2022