基于扩散模型的个性化文本图像生成

CVPRMay, 2024

基于扩散模型的个性化文本图像生成

CustomText: Customized Textual Image Generation using Diffusion Models

Shubham Paliwal, Arushi Jain, Monika Sharma, Vikram Jamwal, Lovekesh Vig

TL;DR本文旨在提高高质量图像的合成与精确文字自定义，为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText，利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战，我们训练了 ControlNet 模型用于一致性解码，从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的 CTW-1500 数据集和自编数据集上的比较评估了 CustomText 的性能，并展示出优越的结果。

Abstract

textual image generation spans diverse fields like advertising, education, product packaging, social media, information visualization, and branding. Despite recent strides in language-guided image synthesis using

textual image generation language-guided image synthesis text rendering font attributes high-quality images

发现论文，激发创造

使用定制扩散模型进行文本引导的图像编辑

该研究提出了一种名为 Custom-Edit 的文本导向图像编辑方法，使用少量参考图像进行模型自定义，可以显著提高引用相似性同时保持源相似性，适用于各种数据集。

May, 2023

使用现成的扩散模型生成印刷文本

该研究提出了一种排版文本生成系统，结合了扩散模型的控制方法和混合潜在扩散模型，实现了在排版设计上添加和修改文本，并指定字体风格、颜色和文本效果。通过合适的边缘条件，该系统能够生成指定字体的文本，同时应用提前设定的效果，如阴影和倒影，成功地将文本添加和修改在预设的背景上，保持整体的一致性。

Feb, 2024

RenderDiffusion: 将文本生成作为图像生成

本篇论文提出了一种新的基于扩散模型的文本生成方法 —— extsc {RenderDiffusion}，它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。

Apr, 2023

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

文本到图像扩散的多概念自定义

本文介绍了一种基于 Custom Diffusion 的文本到图像生成模型，只需少量优化参数即可表示新概念并实现快速调整，还可以通过约束优化共同训练多个概念或组合多个微调模型，并在新颖的环境中将多个概念无缝组合生成，此方法在记忆和计算效能方面都占有优势。

Dec, 2022

TextDiffuser：扩散模型作为文本画家

为解决扩散模型在渲染准确、连贯文本方面的问题，我们介绍了 TextDiffuser，并提供了第一个带有 OCR 标注的大规模图像文本数据集 MARIO-10M，进行了实验和用户研究，表明 TextDiffuser 可以仅基于文本提示或与文本模板图像一起创建高质量的文本图像，并进行文本修复来重构不完整的带文本图像。完成的代码、模型和数据集可在官网 https://aka.ms/textdiffuser 获得。

May, 2023

基于无条件扩散模型的实时文本驱动图像操作

该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率，并开发了一种新算法，可以快速学习和应用图像操作，从而提高实现应用的潜力。

Apr, 2023

扩散色彩：带文本引导的图像上色

使用图像扩散技术和细粒度文本提示的新型图像上色框架，实现了既语义合适又能提高用户对上色过程控制水平的上色输出，通过预训练的生成扩散模型进行微调并评估颜色鲜艳度，适用于颜色增强和历史图像上色。

Dec, 2023

UDiffText: 通过字符感知扩散模型在任意图像中实现高质量文本合成的统一框架

使用预训练扩散模型（即 Stable Diffusion [27]）进行文本图像生成的新方法，通过设计和训练轻量级字符级文本编码器，以更强的文本嵌入作为条件指导，使用大规模数据集微调扩散模型，在字符级分割图的监督下实现局部注意控制，通过推断阶段的优化过程，在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术，并展示了 UDiffText 的几个潜在应用，包括以文本为中心的图像合成、场景文本编辑等。

Dec, 2023

使用扩散模型增强场景文本检测器的真实文本图像合成

通过扩充背景与前景文字的整合，Diffusion Model based Text Generator (DiffText) 创造了一种能生成真实文本图像并优化文本探测器性能的新型合成数据集方法。

Nov, 2023