UDiffText: 通过字符感知扩散模型在任意图像中实现高质量文本合成的统一框架

Dec, 2023

UDiffText: 通过字符感知扩散模型在任意图像中实现高质量文本合成的统一框架

UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models

Yiming Zhao, Zhouhui Lian

TL;DR使用预训练扩散模型（即 Stable Diffusion [27]）进行文本图像生成的新方法，通过设计和训练轻量级字符级文本编码器，以更强的文本嵌入作为条件指导，使用大规模数据集微调扩散模型，在字符级分割图的监督下实现局部注意控制，通过推断阶段的优化过程，在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术，并展示了 UDiffText 的几个潜在应用，包括以文本为中心的图像合成、场景文本编辑等。

Abstract

Text-to-Image (T2I) generation methods based on diffusion model have garnered significant attention in the last few years. Although these image synthesis methods produce visually appealing results, they frequently exhibit spelling errors when rendering text within the generated images.

text-to-image generation diffusion model spelling errors text image generation udifftext

发现论文，激发创造

eDiff-I：使用专家去噪模型集合的文本到图像扩散模型

该研究提出了一种基于扩散的生成模型，通过设计针对迭代生成过程的特殊模型，实现了更好的文本对齐，利用不同嵌入技术对模型进行调整，实现对参考图像风格进行自适应转换，并展示了一种 “文字涂鸦” 的技术，可帮助用户控制所需的图像输出。

Nov, 2022

DiffUTE: 通用文本编辑扩散模型

提出了一种通用的自监督文本编辑扩散模型（DiffUTE），基于扩散模型和网络结构的改进，结合字形和位置信息，利用大量的网络数据进行自监督学习训练，实现了在保持真实外观的同时替换或修改源图像中的单词，并且能够绘制多语言字符，同时具备出色的图像渲染效果。

May, 2023

AltDiffusion: 多语言文本到图像扩散模型

AltDiffusion 是一种新颖的多语种 T2I 扩散模型，它支持 18 种不同语言，并且在生成高质量图像方面优于现有的 T2I 模型，尤其是在理解文化特定概念方面。

Aug, 2023

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

TextCraftor: 您的文本编码器可以成为图像质量控制器

通过提出的 fine-tuning 方法 TextCraftor，我们可以增强 Stable Diffusion 使用的 CLIP 文本编码器，从而在定量基准和人类评估方面实现了显著改进，并且我们的技术还通过不同奖励的细调文本编码器的插值使得可以进行可控的图像生成，同时我们也证明了 TextCraftor 与 UNet finetuning 可以相互独立并且结合以进一步提高生成质量。

Mar, 2024

基于扩散模型的个性化文本图像生成

本文旨在提高高质量图像的合成与精确文字自定义，为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText，利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战，我们训练了 ControlNet 模型用于一致性解码，从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的 CTW-1500 数据集和自编数据集上的比较评估了 CustomText 的性能，并展示出优越的结果。

May, 2024

优化文本到图像生成：走向准确、无需训练的字形增强图像生成

改进了 LenCom-Eval 和 MARIO-Eval 基准测试的 OCR 效果的训练自由框架，提供了生成包含长且少见文本序列图像的新方法。

Mar, 2024

使用扩散模型增强场景文本检测器的真实文本图像合成

通过扩充背景与前景文字的整合，Diffusion Model based Text Generator (DiffText) 创造了一种能生成真实文本图像并优化文本探测器性能的新型合成数据集方法。

Nov, 2023

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

AADiff: 音频对齐视频生成与文本到图像扩散

本文介绍了一种新的 T2V 框架，通过引入音频信号来控制时间动态，从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法，以在视频综合的时间灵活性和一致性之间取得良好平衡，并通过实验验证了方法的有效性，并提出了实际应用。

May, 2023