Dec, 2023

UDiffText: 通过字符感知扩散模型在任意图像中实现高质量文本合成的统一框架

TL;DR使用预训练扩散模型(即 Stable Diffusion [27])进行文本图像生成的新方法,通过设计和训练轻量级字符级文本编码器,以更强的文本嵌入作为条件指导,使用大规模数据集微调扩散模型,在字符级分割图的监督下实现局部注意控制,通过推断阶段的优化过程,在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术,并展示了 UDiffText 的几个潜在应用,包括以文本为中心的图像合成、场景文本编辑等。