基于详细人类中心文本描述的大规模场景合成

Nov, 2023

基于详细人类中心文本描述的大规模场景合成

Detailed Human-Centric Text Description-Driven Large Scene Synthesis

Gwanghyun Kim, Dong Un Kang, Hoigi Seo, Hayeon Kim, Se Young Chun

TL;DRDetText2Scene 是一种新颖的文本驱动大规模图像合成方法，具有高度的忠实度、可控性和自然性，在全局范围内实现了对详细人类中心化文本描述的合成。

Abstract

text-driven large scene image synthesis has made significant progress with diffusion models, but controlling it is challenging. While using additional spatial controls with corresponding texts has improved the controlla

text-driven large scene image synthesis dettext2scene faithfulness controllability naturalness

发现论文，激发创造

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

使用扩散模型增强场景文本检测器的真实文本图像合成

通过扩充背景与前景文字的整合，Diffusion Model based Text Generator (DiffText) 创造了一种能生成真实文本图像并优化文本探测器性能的新型合成数据集方法。

Nov, 2023

Text2Scene：基于文本的室内场景风格化与局部细节

通过引用图像和文本描述，我们提出了一种名为 Text2Scene 的方法，可以自动创建由多个物体组成的虚拟场景的逼真纹理，这种方法在房间的标记三维几何体上增加了详细纹理，使生成的颜色尊重经常由类似材料组成的分层结构或语义部分。

Aug, 2023

基于场景的人类先验文本到图像生成技术

提出了一种基于场景控制、区域特征和转换器的文本生成图像方法，实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果，并实现了场景编辑、文本编辑和故事插图生成等新功能。

Mar, 2022

Text2Scene: 从文本描述生成组合场景

本文提出了 Text2Scene 模型，该模型从自然语言描述中生成各种形式的组成场景表示。与最近的其他工作不同，Text2Scene 不使用生成对抗网络（GANs），而是通过依次生成对象和它们的属性来学习生成场景，从而实现生成各种形式的场景表示，包括卡通样式的场景、与真实图像相对应的对象布局和合成图像。该方法不仅能够胜任与基于 GAN 的最先进方法相竞争的工作，而且其结果可以被解释。

Sep, 2018

基于文本的可控人类图像生成

本文提出一种名为 Text2Human 的控制性框架，用于基于文本的生成高质量和多样化的人类图像。在此框架下，我们建立了一个分层的纹理感知码书，以存储不同类型纹理的多尺度神经表征，并使用混合专家的扩散变换采样器采样码书中的索引。通过使用细粒度文本输入，生成的图像具有更高的质量和更多的多样性，拥有比现有方法更好的性能。

May, 2022

SceneTextGen: 使用扩散模型的无局限布局的场景文字图像合成

SceneTextGen 是一种基于扩散模型的新颖方法，通过集成具有详细排版属性的字符级编码器，字符级实例分割模型和词级定位模型，以实现更自然和多样化的文本生成，从而提高了生成图像上的字符识别率。

Jun, 2024

基于多条件扩散模型的语言驱动场景合成

通过结合文字提示、人体动作和现有物体来进行多模态场景合成的多条件扩散模型，理论上支持，实验证明优于最先进的基准，并可实现自然场景编辑应用。

Oct, 2023

SynthText3D: 从三维虚拟世界中合成场景文本图像

本文提出了一种利用 3D 虚拟世界合成场景文本图像的方法，相较之前的方法，此方法可以将 3D 虚拟场景和文本实例作为一个整体进行渲染，并通过随机移动和旋转虚拟摄像机来生成多个视角的相同文本实例，最终实现生成的场景文本图像在场景、光照、遮挡等方面的多样性，得到的生成数据在标准场景文本检测基准测试中表现更加有效和优越。

Jul, 2019

逼真图像合成用于准确识别场景中的文本

通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计，提出了一种新的图像合成技术，用于生成大量标注数据，以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。

Jul, 2018