使用扩散器混合进行场景构图和高分辨率图像生成
该论文介绍了一种名为 Composite Diffusion 的方法,该方法允许艺术家通过自由形式的分段布局来生成高质量图像,以此来实现对图像生成的更大的空间、语义和创造性控制。
Jul, 2023
通过解释扩散模型为基于能量的模型,在训练和测试阶段中将一组扩散模型组合在一起,结构化生成,该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像,解决了 DALLE-2 在对象属性方面的困难。
Jun, 2022
MiDiffusion 是一种新的混合离散 - 连续扩散模型架构,用于根据房间类型、平面图和可能的预存在对象合成逼真的室内 3D 场景,相比于自回归模型和扩散模型,在楼层条件下的 3D 场景合成表现出明显的优势,并可通过破坏和遮蔽策略处理部分对象约束,无需专门训练。
May, 2024
为解决扩散模型在渲染准确、连贯文本方面的问题,我们介绍了 TextDiffuser,并提供了第一个带有 OCR 标注的大规模图像文本数据集 MARIO-10M, 进行了实验和用户研究,表明 TextDiffuser 可以仅基于文本提示或与文本模板图像一起创建高质量的文本图像,并进行文本修复来重构不完整的带文本图像。完成的代码、模型和数据集可在官网 https://aka.ms/textdiffuser 获得。
May, 2023
通过使用大规模预训练的扩散模型,我们提出了一种可控的图像合成方法,将图像混合、图像协调、视角综合和生成式合成统一为一个扩散模型,同时设计了一个自监督训练框架和一个定制化的训练数据准备方法,并通过局部增强模块提高合成图像中前景细节的保真性。我们的方法在公共基准和实际数据上进行了评估,结果表明我们的方法比现有方法能够生成更加忠实和可控的合成图像。
Aug, 2023
通过设计一种多模态文本到图像扩散模型(DiffBlender),可以同时引入多种不同类型的细节表达方式,如草图、盒子和风格嵌入等,不需要更改现有模型的参数,从而在单个模型中实现条件生成,并且通过量化和定性比较,将多模态生成的标准提高到了新的水平。
May, 2023
本篇论文提出了一种新的基于扩散模型的文本生成方法 —— extsc {RenderDiffusion},它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。
Apr, 2023
本文提出了一种图像分解的方法,使用 Diffusion 模型进行无监督训练,从而推断出图像中的各种组成部分,并展示了如何使用这些组成部分灵活地生成不同于训练时的场景。
Jun, 2024
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023