使用扩散器混合进行场景构图和高分辨率图像生成

Feb, 2023

使用扩散器混合进行场景构图和高分辨率图像生成

Mixture of Diffusers for scene composition and high resolution image generation

Álvaro Barbero Jiménez

TL;DR本文介绍了一种建立在现有扩散模型之上的算法 ——Diffusers 混合器，它能够在不同区域之间协调多个扩散过程来控制图像组合，从而提供更细致的组合控制方式。

Abstract

diffusion methods have been proven to be very effective to generate images while conditioning on a text prompt. However, and although the quality of the generated images is unprecedented, these methods seem to struggle when trying to generate specific image compositions. In this paper

diffusion methods mixture of diffusers image composition canvas style control

发现论文，激发创造

复合扩散 | 整体 >= Σ 部分

该论文介绍了一种名为 Composite Diffusion 的方法，该方法允许艺术家通过自由形式的分段布局来生成高质量图像，以此来实现对图像生成的更大的空间、语义和创造性控制。

Jul, 2023

可组合扩散模型下的组合视觉生成

通过解释扩散模型为基于能量的模型，在训练和测试阶段中将一组扩散模型组合在一起，结构化生成，该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像，解决了 DALLE-2 在对象属性方面的困难。

Jun, 2022

混合扩散用于 3D 室内场景合成

MiDiffusion 是一种新的混合离散 - 连续扩散模型架构，用于根据房间类型、平面图和可能的预存在对象合成逼真的室内 3D 场景，相比于自回归模型和扩散模型，在楼层条件下的 3D 场景合成表现出明显的优势，并可通过破坏和遮蔽策略处理部分对象约束，无需专门训练。

May, 2024

TextDiffuser：扩散模型作为文本画家

为解决扩散模型在渲染准确、连贯文本方面的问题，我们介绍了 TextDiffuser，并提供了第一个带有 OCR 标注的大规模图像文本数据集 MARIO-10M，进行了实验和用户研究，表明 TextDiffuser 可以仅基于文本提示或与文本模板图像一起创建高质量的文本图像，并进行文本修复来重构不完整的带文本图像。完成的代码、模型和数据集可在官网 https://aka.ms/textdiffuser 获得。

May, 2023

自然图像抠图的扩散

利用扩散方法来解决图像抠像任务，在本论文中，我们提出了 DiffMatte，一种解决方案，旨在有效地克服计算负担和训练与推断过程中噪声采样不一致等挑战。

Dec, 2023

ControlCom：使用扩散模型进行可控图像合成

通过使用大规模预训练的扩散模型，我们提出了一种可控的图像合成方法，将图像混合、图像协调、视角综合和生成式合成统一为一个扩散模型，同时设计了一个自监督训练框架和一个定制化的训练数据准备方法，并通过局部增强模块提高合成图像中前景细节的保真性。我们的方法在公共基准和实际数据上进行了评估，结果表明我们的方法比现有方法能够生成更加忠实和可控的合成图像。

Aug, 2023

DiffBlender: 可扩展和可组合的多模态文本到图像扩散模型

通过设计一种多模态文本到图像扩散模型（DiffBlender），可以同时引入多种不同类型的细节表达方式，如草图、盒子和风格嵌入等，不需要更改现有模型的参数，从而在单个模型中实现条件生成，并且通过量化和定性比较，将多模态生成的标准提高到了新的水平。

May, 2023

RenderDiffusion: 将文本生成作为图像生成

本篇论文提出了一种新的基于扩散模型的文本生成方法 —— extsc {RenderDiffusion}，它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。

Apr, 2023

使用扩散模型进行图像分解

本文提出了一种图像分解的方法，使用 Diffusion 模型进行无监督训练，从而推断出图像中的各种组成部分，并展示了如何使用这些组成部分灵活地生成不同于训练时的场景。

Jun, 2024

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023