复合扩散 | 整体 >= Σ 部分 | BriefGPT

Jul, 2023

复合扩散 | 整体 >= Σ 部分

Composite Diffusion | whole >= Σparts

Vikram Jamwal, Ramaneswaran S

TL;DR该论文介绍了一种名为 Composite Diffusion 的方法，该方法允许艺术家通过自由形式的分段布局来生成高质量图像，以此来实现对图像生成的更大的空间、语义和创造性控制。

Abstract

For an artist or a graphic designer, the spatial layout of a scene is a critical design choice. However, existing text-to-image diffusion models provide limited support for incorporating spatial information. This paper introduces →

composite diffusion spatial layout high-quality images sub-scenes art creation

发现论文，激发创造

可组合扩散模型下的组合视觉生成

通过解释扩散模型为基于能量的模型，在训练和测试阶段中将一组扩散模型组合在一起，结构化生成，该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像，解决了 DALLE-2 在对象属性方面的困难。

Jun, 2022

使用扩散器混合进行场景构图和高分辨率图像生成

本文介绍了一种建立在现有扩散模型之上的算法 ——Diffusers 混合器，它能够在不同区域之间协调多个扩散过程来控制图像组合，从而提供更细致的组合控制方式。

Feb, 2023

使用扩散模型进行图像分解

本文提出了一种图像分解的方法，使用 Diffusion 模型进行无监督训练，从而推断出图像中的各种组成部分，并展示了如何使用这些组成部分灵活地生成不同于训练时的场景。

Jun, 2024

基于结构感知扩散模型的素描参考图像合成

提出了一种基于多输入用户素描图的图像合成模型，可以使用户编辑或完整地生成所需的具有结构和内容的图像，通过实验证明了该模型能够在图像合成和编辑方面提供独特的用例。

Mar, 2023

无需训练的结构扩散引导的组合文本到图像合成

本文基于扩散模型的可控属性，将语言结构与扩散过程相结合，进一步提高了 T2I 模型的组合能力，特别是更准确的属性绑定和更好的图像组合，这得益于跨注意层的帮助和语言洞察力。

Dec, 2022

合成与征服：基于扩散的三维深度感知可组合图像合成

通过整合三维物体放置、全局风格语义以及软引导等技术，我们提出了一种条件扩散模型 ——Compose and Conquer (CnC)，能够分离式地定位多个条件，并实现对不同全局语义所定位的局部物体的创作。

Jan, 2024

层叠场景扩散移动任何物体

通过对不同空间布局的场景渲染进行联合去噪，SceneDiffusion 方法的关键见解在于可以通过优化扩散采样过程中的分层场景表示来实现空间分离，从而生成支持移动、调整大小、克隆以及逐层外观编辑（包括目标重塑和替换）等广泛空间编辑操作的场景。此外，可以根据参考图像生成场景，从而实现对野外图像中的目标进行移动，该方法无需进行训练，与一般的文本 - 图像扩散模型兼容，并且响应时间少于一秒。

Apr, 2024

ControlCom：使用扩散模型进行可控图像合成

通过使用大规模预训练的扩散模型，我们提出了一种可控的图像合成方法，将图像混合、图像协调、视角综合和生成式合成统一为一个扩散模型，同时设计了一个自监督训练框架和一个定制化的训练数据准备方法，并通过局部增强模块提高合成图像中前景细节的保真性。我们的方法在公共基准和实际数据上进行了评估，结果表明我们的方法比现有方法能够生成更加忠实和可控的合成图像。

Aug, 2023

文本到图像扩散模型中的空间理解解锁

我们提出了 CompFuser，这是一个图像生成管道，可以增强文本到图像生成模型中的空间理解和属性分配。该管道能够解释定义场景中物体之间空间关系的指令，并生成相应的图像，为用户提供更多的控制。通过在生成多个对象时将其解码成迭代步骤：首先生成单个对象，然后通过将其他对象放置在指定位置来编辑图像，CompFuser 克服了现有文本到图像扩散模型的局限性。为了创建空间理解和属性分配的训练数据，我们引入了一种合成数据生成过程，利用冻结的大型语言模型和基于布局的扩散模型来进行对象放置。我们将我们的方法与强基准进行比较，并展示了我们的模型在空间理解和属性分配方面优于最先进的图像生成模型，尽管其参数只有现有模型的 3 倍到 5 倍小。

Nov, 2023

DiffCollage: 基于扩散模型的大规模内容并行生成

DiffCollage 是一种基于组合性扩散模型的方法，可以生成大量内容，并将其应用于图像生成、文本生成等各种任务。

Mar, 2023