基于多条件扩散模型的语言驱动场景合成

Oct, 2023

基于多条件扩散模型的语言驱动场景合成

Language-driven Scene Synthesis using Multi-conditional Diffusion Model

An Vuong, Minh Nhat Vu, Toan Tien Nguyen, Baoru Huang, Dzung Nguyen...

TL;DR通过结合文字提示、人体动作和现有物体来进行多模态场景合成的多条件扩散模型，理论上支持，实验证明优于最先进的基准，并可实现自然场景编辑应用。

Abstract

scene synthesis is a challenging problem with several industrial applications. Recently, substantial efforts have been directed to synthesize the scene using human motions, room layouts, or spatial graphs as the input. However, few studies have addressed this problem from multiple moda

scene synthesis language-driven multi-conditional diffusion model text prompts natural scene editing

发现论文，激发创造

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

SceneGenie: 基于场景图引导的扩散模型图像合成

本文提出了一种针对扩散模型的新型引导方法，通过边界框和分割映射信息进行推理时间的采样过程，有效提高了文本到图像生成的准确性和分辨率，从而在场景图像生成方面取得了更好的表现和效果，并在公共基准测试中超越了基于场景图像和文本的扩散模型。

Apr, 2023

基于详细人类中心文本描述的大规模场景合成

DetText2Scene 是一种新颖的文本驱动大规模图像合成方法，具有高度的忠实度、可控性和自然性，在全局范围内实现了对详细人类中心化文本描述的合成。

Nov, 2023

潜在扩散中的场景图条件

利用 ControlNet 和 Gated Self-Attention，我们提出了多种方法来解决稀缺的图像和场景图数据，通过场景图生成高质量图像，超越了之前的方法。

Oct, 2023

从文本描述中生成三维场景的人类动作

通过将任务分解为两个可管理的子问题：目标对象的语言准确性和以目标对象为中心的运动生成，本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作，实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。

May, 2024

运动漫化：基于扩散模型的文本驱动人体动作生成

MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架，可以通过概率映射、真实的合成方式，以及多级操作等方法，有效地生成复杂和多种变化的人类运动。

Aug, 2022

运动乐章：将静态图像转化为动态视频

通过将语义和动作线索整合到扩散模型中，我们引入了一种用于视频生成的新方法，它显著提升了视频质量、动作精度和语义连贯性。

Mar, 2024

使用场景图进行 3D 场景扩散引导

使用场景图进行 3D 场景扩散引导的新方法，通过在去噪网络中使用关系图卷积块来利用场景图提供的相对空间信息，显著提高了场景描述与生成场景之间的对齐。

Aug, 2023

基于语言指导的场景级扩散交通模拟

提出了一种 CTG++ 基于学习的交通流模型，它可以通过语言指令进行指导，从而解决了交通模型控制需要领域专业知识，对实践者使用困难等问题，通过经过广泛的评估，我们展示了该方法在生成实际且符合查询要求的交通仿真方面的有效性。

Jun, 2023

SceneTextGen: 使用扩散模型的无局限布局的场景文字图像合成

SceneTextGen 是一种基于扩散模型的新颖方法，通过集成具有详细排版属性的字符级编码器，字符级实例分割模型和词级定位模型，以实现更自然和多样化的文本生成，从而提高了生成图像上的字符识别率。

Jun, 2024