条件式扩散模型文本图像生成

Jun, 2023

Conditional Text Image Generation with Diffusion Models

Yuanzhi Zhu, Zhaohai Li, Tianwei Wang, Mengchao He, Cong Yao

TL;DR本文提出一种名为 CTIG-DM 的新方法，它结合了图像条件、文本条件和风格条件来控制样本在图像生成过程中的属性、内容和风格。经过大量的实验，证明 CTIG-DM 能够产生模拟现实世界复杂性和多样性的图像样本，具有很强的潜力用于领域适应和生成包含 OOV（Out-Of-Vocabulary）词的图像。

Abstract

Current text recognition systems, including those for handwritten scripts and scene text, have relied heavily on image synthesis and augmentation, since it is difficult to realize real-world complexity and diversity through collecting and annotating enough real text images. In this paper, we explore the problem of →

text image generation diffusion models conditional text image generation handwritten and scene text domain adaptation

发现论文，激发创造

生成 AI 中的文本与图像扩散模型：一项调查

本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用；此外，介绍了文本条件下图像合成、文本引导的创意生成和图像编辑，并探讨了当前的挑战和未来方向。

Mar, 2023

可控生成的文本 - 图像扩散模型：一份综述

在控制生成方面与文本到图像扩散模型的研究领域，通过调查文献并总结了控制性生成，包括基本概念和实践研究。

Mar, 2024

一种基于扩散的多回合组合图像生成方法

本文提出了一种名为条件去噪扩散与图像组成匹配 (CDD-ICM) 的基于扩散模型的多回合组合图像生成方法，利用 CLIP 作为图像和文本编码器的主干，并在每个 M-CIG 回合中，结合门控融合机制，将参考图像和修饰文本进行组合融合，通过条件方法生成目标图像，并引入反应结果的附加图像组成匹配 (ICM) 目标来优化生成图像语义质量。同时，采用 ICM 引导和无分类器引导进一步提高性能，在 CoDraw 和 i-CLEVR 两个基准数据集上取得了最新技术水平的结果。

Apr, 2023

RenderDiffusion: 将文本生成作为图像生成

本篇论文提出了一种新的基于扩散模型的文本生成方法 —— extsc {RenderDiffusion}，它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。

Apr, 2023

扩散中的扩散：循环单向扩散用于文本 - 视觉 - 有条件生成

本文介绍了一种基于文本语义和像素级视觉条件同时进行的图像合成多模式方法及其框架（COW），通过诸如 COW 的方法，可以解决已有方法不能在保留低级视觉的情况下实现文本到图像合成的问题。

Jun, 2023

基于扩散模型的个性化文本图像生成

本文旨在提高高质量图像的合成与精确文字自定义，为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText，利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战，我们训练了 ControlNet 模型用于一致性解码，从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的 CTW-1500 数据集和自编数据集上的比较评估了 CustomText 的性能，并展示出优越的结果。

May, 2024

GLIDE: 基于文本引导扩散模型的逼真图像生成和编辑

本研究探讨了扩散模型在文本条件下生成图像的问题，并比较了不同的指导策略：CLIP 指导和无分类器指导。结果发现对于照片逼真度和字幕相似性，后者更受人类评估人员的青睐，还可以进行图像修复。

Dec, 2021

使用扩散模型增强场景文本检测器的真实文本图像合成

通过扩充背景与前景文字的整合，Diffusion Model based Text Generator (DiffText) 创造了一种能生成真实文本图像并优化文本探测器性能的新型合成数据集方法。

Nov, 2023

TCIG：两阶段受控图像生成与质量增强

最近几年，在文本到图像生成模型的发展方面取得了显著进展。然而，这些模型在生成过程中仍然面临着实现完全可控性的局限性。为了解决这些挑战，提出了一种有效结合可控性和高质量的图像生成的两阶段方法。该方法通过利用预训练模型的专业知识实现对生成图像的精确控制，并利用扩散模型的强大功能实现卓越的质量。通过将可控性与高质量分开，该方法取得了出色的结果，并且与当前领域的最新方法产生了可比较的结果。总体而言，该方法在文本到图像生成方面代表了一项重大进展，实现了在生成图像质量上不妥协的同时提升了可控性。

Mar, 2024

多模态引导下的图像编辑与文本到图像扩散模型调查

图像编辑以满足用户特定需求为目标，近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾，介绍了综合的图像编辑范畴、各种控制信号和编辑场景，提出了一个统一的框架来规范编辑过程，并分成两个主要算法体系，为用户实现特定目标提供了一个设计空间。另外，对于基于训练的方法，我们讨论了它们的特点和适用场景，并介绍了在不同场景下源图像注入的方案。此外，我们还回顾了将二维技术应用于视频编辑，并突出了解决帧间不一致问题的解决方案。最后，我们讨论了该领域面临的开放性挑战，并提出了潜在的未来研究方向。

Jun, 2024