Mar, 2024

Glyph-ByT5: 准确视觉文本渲染的定制文本编码器

TL;DR通过定制化文本编码器Glyph-ByT5与SDXL的融合,我们提出了一种用于设计图像生成的Glyph-SDXL模型,大幅提高了文本渲染的准确性,并在打破原有的设计图像基准上,将渲染准确度从不到20%提高到近90%,同时还能实现自动多行布局,并通过细调与视觉文本相关的高质量照片,显著提升了开放域真实图像中场景文本渲染能力,为设计各种困难任务的定制化文本编码器的进一步探索提供了有力的倡议。