Text2Scene: 从文本描述生成组合场景

CVPRSep, 2018

Text2Scene: 从文本描述生成组合场景

Text2Scene: Generating Compositional Scenes from Textual Descriptions

Fuwen Tan, Song Feng, Vicente Ordonez

TL;DR本文提出了 Text2Scene 模型，该模型从自然语言描述中生成各种形式的组成场景表示。与最近的其他工作不同，Text2Scene 不使用生成对抗网络（GANs），而是通过依次生成对象和它们的属性来学习生成场景，从而实现生成各种形式的场景表示，包括卡通样式的场景、与真实图像相对应的对象布局和合成图像。该方法不仅能够胜任与基于 GAN 的最先进方法相竞争的工作，而且其结果可以被解释。

Abstract

In this paper, we propose text2scene, a model that generates various forms of compositional scene representations from natural language descripti

text2scene compositional scene representations natural language descriptions generative adversarial networks interpretable results

发现论文，激发创造

Text2Scene：基于文本的室内场景风格化与局部细节

通过引用图像和文本描述，我们提出了一种名为 Text2Scene 的方法，可以自动创建由多个物体组成的虚拟场景的逼真纹理，这种方法在房间的标记三维几何体上增加了详细纹理，使生成的颜色尊重经常由类似材料组成的分层结构或语义部分。

Aug, 2023

基于场景的人类先验文本到图像生成技术

提出了一种基于场景控制、区域特征和转换器的文本生成图像方法，实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果，并实现了场景编辑、文本编辑和故事插图生成等新功能。

Mar, 2022

基于详细人类中心文本描述的大规模场景合成

DetText2Scene 是一种新颖的文本驱动大规模图像合成方法，具有高度的忠实度、可控性和自然性，在全局范围内实现了对详细人类中心化文本描述的合成。

Nov, 2023

使用场景图实现交互式图像生成

本文提出了一种基于场景图的递增式图像生成模型，该模型通过使用递归神经网络、图卷积网络以及生成对抗网络来生成逼真的多对象图像，实验结果表明其在生成逐步增长场景图的情况下比其他方法更优。

May, 2019

场景条件下的三维物体风格化与组合

通过结合建模和优化对象的纹理和环境光照，本论文提出了一个框架，使得现有的 3D 资源能够适应给定的 2D 场景，同时生成一种真实感的组合效果，使得假定的对象能够放入该环境中。

Dec, 2023

SceneTextGen: 使用扩散模型的无局限布局的场景文字图像合成

SceneTextGen 是一种基于扩散模型的新颖方法，通过集成具有详细排版属性的字符级编码器，字符级实例分割模型和词级定位模型，以实现更自然和多样化的文本生成，从而提高了生成图像上的字符识别率。

Jun, 2024

从场景图生成图像

提出了一种利用场景图生成图像的模型，其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局，并使用级联细化网络将布局转换为图像，训练对抗鉴别器来确保生成的图像具有逼真度。

Apr, 2018

ComFusion: 多个特定场景中的个性化主题生成单图像

最近在个性化文本到图像（T2I）扩散模型方面的进展表明，使用有限数量的用户提供的示例生成基于个性化视觉概念的图像的能力已被证明。然而，这些模型在维护高视觉保真度方面经常遇到困难，特别是在根据文本输入进行场景操作时。为了解决这个问题，我们引入了 ComFusion，这是一种新颖的方法，利用预训练模型生成几个用户提供的主题图像和预定义文本场景的组合，有效地将视觉主题实例与文本特定场景融合，从而在多样的场景中生成高保真度的实例。ComFusion 整合了一种类别场景先验保留正则化方法，利用预训练模型的组合主题和场景特定知识，增强了生成的保真度。此外，ComFusion 使用粗糙生成的图像，确保它们与实例图像和场景文本有效对齐。因此，ComFusion 在捕捉主题的本质和保持场景保真度之间保持了一个微妙的平衡。对 T2I 个性化中的各种基线进行了广泛评估，证明了 ComFusion 在定性和定量上的优越性。

Feb, 2024

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

从文字描述中合成构成动画

本文针对自然语言描述的运动合成问题，提出了一种基于两级流模型的生成复合动作的技术，利用两个流分别表示上下半身的动作，能够有效地生成短句和复合句中描述的 3D 姿态序列，与已有研究相比，实验结果表明我们的模型在客观评价方面进步了 50% 以上，在主观评价方面也得到了很好的实验结果。

Mar, 2021