复合扩散 | 整体 >= Σ 部分
通过解释扩散模型为基于能量的模型,在训练和测试阶段中将一组扩散模型组合在一起,结构化生成,该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像,解决了 DALLE-2 在对象属性方面的困难。
Jun, 2022
本文介绍了一种建立在现有扩散模型之上的算法 ——Diffusers 混合器,它能够在不同区域之间协调多个扩散过程来控制图像组合,从而提供更细致的组合控制方式。
Feb, 2023
本文提出了一种图像分解的方法,使用 Diffusion 模型进行无监督训练,从而推断出图像中的各种组成部分,并展示了如何使用这些组成部分灵活地生成不同于训练时的场景。
Jun, 2024
提出了一种基于多输入用户素描图的图像合成模型,可以使用户编辑或完整地生成所需的具有结构和内容的图像,通过实验证明了该模型能够在图像合成和编辑方面提供独特的用例。
Mar, 2023
本文基于扩散模型的可控属性,将语言结构与扩散过程相结合,进一步提高了 T2I 模型的组合能力,特别是更准确的属性绑定和更好的图像组合,这得益于跨注意层的帮助和语言洞察力。
Dec, 2022
通过整合三维物体放置、全局风格语义以及软引导等技术,我们提出了一种条件扩散模型 ——Compose and Conquer (CnC),能够分离式地定位多个条件,并实现对不同全局语义所定位的局部物体的创作。
Jan, 2024
通过对不同空间布局的场景渲染进行联合去噪,SceneDiffusion 方法的关键见解在于可以通过优化扩散采样过程中的分层场景表示来实现空间分离,从而生成支持移动、调整大小、克隆以及逐层外观编辑(包括目标重塑和替换)等广泛空间编辑操作的场景。此外,可以根据参考图像生成场景,从而实现对野外图像中的目标进行移动,该方法无需进行训练,与一般的文本 - 图像扩散模型兼容,并且响应时间少于一秒。
Apr, 2024
通过使用大规模预训练的扩散模型,我们提出了一种可控的图像合成方法,将图像混合、图像协调、视角综合和生成式合成统一为一个扩散模型,同时设计了一个自监督训练框架和一个定制化的训练数据准备方法,并通过局部增强模块提高合成图像中前景细节的保真性。我们的方法在公共基准和实际数据上进行了评估,结果表明我们的方法比现有方法能够生成更加忠实和可控的合成图像。
Aug, 2023
我们提出了 CompFuser,这是一个图像生成管道,可以增强文本到图像生成模型中的空间理解和属性分配。该管道能够解释定义场景中物体之间空间关系的指令,并生成相应的图像,为用户提供更多的控制。通过在生成多个对象时将其解码成迭代步骤:首先生成单个对象,然后通过将其他对象放置在指定位置来编辑图像,CompFuser 克服了现有文本到图像扩散模型的局限性。为了创建空间理解和属性分配的训练数据,我们引入了一种合成数据生成过程,利用冻结的大型语言模型和基于布局的扩散模型来进行对象放置。我们将我们的方法与强基准进行比较,并展示了我们的模型在空间理解和属性分配方面优于最先进的图像生成模型,尽管其参数只有现有模型的 3 倍到 5 倍小。
Nov, 2023