从虚幻的世界中合成逼真的场景文本图像

Mar, 2020

从虚幻的世界中合成逼真的场景文本图像

UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World

Shangbang Long, Cong Yao

TL;DR本文介绍了一种高效的图像合成方法 UnrealText，可通过 3D 图形引擎呈现逼真的图像，包括场景和文本，可以更好地生成文本区域建议，并对场景文本检测和识别的效果进行广泛实验验证。

Abstract

synthetic data has been a critical tool for training scene text detection and recognition models. On the one hand, synthetic word images have proven to be a successful substitute for real images in training scene

synthetic data scene text detection scene text recognition unrealtext image synthesis

发现论文，激发创造

SynthText3D: 从三维虚拟世界中合成场景文本图像

本文提出了一种利用 3D 虚拟世界合成场景文本图像的方法，相较之前的方法，此方法可以将 3D 虚拟场景和文本实例作为一个整体进行渲染，并通过随机移动和旋转虚拟摄像机来生成多个视角的相同文本实例，最终实现生成的场景文本图像在场景、光照、遮挡等方面的多样性，得到的生成数据在标准场景文本检测基准测试中表现更加有效和优越。

Jul, 2019

逼真图像合成用于准确识别场景中的文本

通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计，提出了一种新的图像合成技术，用于生成大量标注数据，以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。

Jul, 2018

使用扩散模型增强场景文本检测器的真实文本图像合成

通过扩充背景与前景文字的整合，Diffusion Model based Text Generator (DiffText) 创造了一种能生成真实文本图像并优化文本探测器性能的新型合成数据集方法。

Nov, 2023

自然图像中文本定位的合成数据

介绍了一种新的自然图像中文本检测方法，它包括使用合成图像训练 Fully-Convolutional Regression Network (FCRN) 以高效执行所有位置和多个尺度的文本检测和边框回归，并且可以在 GPU 上处理 15 张图像 / 秒。

Apr, 2016

基于详细人类中心文本描述的大规模场景合成

DetText2Scene 是一种新颖的文本驱动大规模图像合成方法，具有高度的忠实度、可控性和自然性，在全局范围内实现了对详细人类中心化文本描述的合成。

Nov, 2023

Text2Scene：基于文本的室内场景风格化与局部细节

通过引用图像和文本描述，我们提出了一种名为 Text2Scene 的方法，可以自动创建由多个物体组成的虚拟场景的逼真纹理，这种方法在房间的标记三维几何体上增加了详细纹理，使生成的颜色尊重经常由类似材料组成的分层结构或语义部分。

Aug, 2023

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

基于文本指导的三维人脸合成 -- 从生成到编辑

通过文本引导的三维人脸合成，从生成到编辑的统一框架，通过解耦生成几何和纹理来提高几何细节的生成效果，并利用生成几何作为纹理生成的条件，进一步提升几何与纹理的一致性结果；通过预训练扩散模型来更新面部几何或纹理以实现顺序编辑，并引入 UV 域一致性保持正则化以防止对不相关面部属性的无意更改，并提出自导向一致性权重策略以提高编辑效果与保持一致性；通过全面实验展示了该方法在人脸合成方面的优越性。

Dec, 2023

高保真场景文本合成

本研究提出了 DreamText 方法，旨在通过增加细化的字符级指导以及多样的字体训练，提高高保真场景文本合成效果，并通过融合离散和连续变量的混合优化策略来解决该优化问题。实验结果表明，本方法在质量和数量上优于现有方法。

May, 2024

渲染合成图像用于训练物体检测器

本文提出了一种基于 3D 模型合成无限数量的训练图像的方法，以提升目标检测的分类性能。通过估计渲染参数，生成的图像不仅要外观与真实图像相似，而且要在训练目标检测器时使用相同的特征。结果表明，与传统方法不同的是，此方法可显著提高无人机、飞机和汽车检测的性能。

Nov, 2014