TL;DR本文介绍了一种高效的图像合成方法 UnrealText,可通过 3D 图形引擎呈现逼真的图像,包括场景和文本,可以更好地生成文本区域建议,并对场景文本检测和识别的效果进行广泛实验验证。
Abstract
synthetic data has been a critical tool for training scene text detection and
recognition models. On the one hand, synthetic word images have proven to be a
successful substitute for real images in training scene
本文提出了一种利用 3D 虚拟世界合成场景文本图像的方法,相较之前的方法,此方法可以将 3D 虚拟场景和文本实例作为一个整体进行渲染,并通过随机移动和旋转虚拟摄像机来生成多个视角的相同文本实例,最终实现生成的场景文本图像在场景、光照、遮挡等方面的多样性,得到的生成数据在标准场景文本检测基准测试中表现更加有效和优越。