TextDiffuser：扩散模型作为文本画家

May, 2023

TextDiffuser：扩散模型作为文本画家

TextDiffuser: Diffusion Models as Text Painters

Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen...

TL;DR为解决扩散模型在渲染准确、连贯文本方面的问题，我们介绍了 TextDiffuser，并提供了第一个带有 OCR 标注的大规模图像文本数据集 MARIO-10M，进行了实验和用户研究，表明 TextDiffuser 可以仅基于文本提示或与文本模板图像一起创建高质量的文本图像，并进行文本修复来重构不完整的带文本图像。完成的代码、模型和数据集可在官网 https://aka.ms/textdiffuser 获得。

Abstract

diffusion models have gained increasing attention for their impressive generation abilities but currently struggle with rendering accurate and coherent text. To address this issue, we introduce \textbf{textdiffuser

diffusion models textdiffuser image-text pairs mario-10m text rendering quality

发现论文，激发创造

TextDiffuser-2：释放语言模型在文本呈现中的能力

通过使用语言模型进行布局规划，TextDiffuser-2 能够实现更合理的文本布局和具有增强多样性的生成。

Nov, 2023

RenderDiffusion: 将文本生成作为图像生成

本篇论文提出了一种新的基于扩散模型的文本生成方法 —— extsc {RenderDiffusion}，它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。

Apr, 2023

基于扩散模型的个性化文本图像生成

本文旨在提高高质量图像的合成与精确文字自定义，为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText，利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战，我们训练了 ControlNet 模型用于一致性解码，从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的 CTW-1500 数据集和自编数据集上的比较评估了 CustomText 的性能，并展示出优越的结果。

May, 2024

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

eDiff-I：使用专家去噪模型集合的文本到图像扩散模型

该研究提出了一种基于扩散的生成模型，通过设计针对迭代生成过程的特殊模型，实现了更好的文本对齐，利用不同嵌入技术对模型进行调整，实现对参考图像风格进行自适应转换，并展示了一种 “文字涂鸦” 的技术，可帮助用户控制所需的图像输出。

Nov, 2022

ARTIST: 复杂文本图像生成的解耦改进

通过引入一个专门关注文本学习的新框架 ARTIST，有助于提升扩散模型在生成富文本图像时的文本渲染能力，并利用预训练的大型语言模型来解释用户意图，提高生成质量。在 MARIO-Eval 基准测试上的实证结果表明，该方法在各种度量标准上的性能提升达到了 15%。

Jun, 2024

使用扩散模型增强场景文本检测器的真实文本图像合成

通过扩充背景与前景文字的整合，Diffusion Model based Text Generator (DiffText) 创造了一种能生成真实文本图像并优化文本探测器性能的新型合成数据集方法。

Nov, 2023

DiffBlender: 可扩展和可组合的多模态文本到图像扩散模型

通过设计一种多模态文本到图像扩散模型（DiffBlender），可以同时引入多种不同类型的细节表达方式，如草图、盒子和风格嵌入等，不需要更改现有模型的参数，从而在单个模型中实现条件生成，并且通过量化和定性比较，将多模态生成的标准提高到了新的水平。

May, 2023

UDiffText: 通过字符感知扩散模型在任意图像中实现高质量文本合成的统一框架

使用预训练扩散模型（即 Stable Diffusion [27]）进行文本图像生成的新方法，通过设计和训练轻量级字符级文本编码器，以更强的文本嵌入作为条件指导，使用大规模数据集微调扩散模型，在字符级分割图的监督下实现局部注意控制，通过推断阶段的优化过程，在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术，并展示了 UDiffText 的几个潜在应用，包括以文本为中心的图像合成、场景文本编辑等。

Dec, 2023

生成 AI 中的文本与图像扩散模型：一项调查

本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用；此外，介绍了文本条件下图像合成、文本引导的创意生成和图像编辑，并探讨了当前的挑战和未来方向。

Mar, 2023