Jun, 2024
ARTIST: 复杂文本图像生成的解耦改进
ARTIST: Improving the Generation of Text-rich Images by Disentanglement
Jianyi Zhang, Yufan Zhou, Jiuxiang Gu, Curtis Wigington, Tong Yu...
TL;DR通过引入一个专门关注文本学习的新框架 ARTIST,有助于提升扩散模型在生成富文本图像时的文本渲染能力,并利用预训练的大型语言模型来解释用户意图,提高生成质量。在 MARIO-Eval 基准测试上的实证结果表明,该方法在各种度量标准上的性能提升达到了 15%。