text-driven large scene image synthesis has made significant progress with
diffusion models, but controlling it is challenging. While using additional
spatial controls with corresponding texts has improved the controlla
本文提出了一种利用 3D 虚拟世界合成场景文本图像的方法,相较之前的方法,此方法可以将 3D 虚拟场景和文本实例作为一个整体进行渲染,并通过随机移动和旋转虚拟摄像机来生成多个视角的相同文本实例,最终实现生成的场景文本图像在场景、光照、遮挡等方面的多样性,得到的生成数据在标准场景文本检测基准测试中表现更加有效和优越。