条件式扩散模型文本图像生成
本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用;此外,介绍了文本条件下图像合成、文本引导的创意生成和图像编辑,并探讨了当前的挑战和未来方向。
Mar, 2023
本文提出了一种名为条件去噪扩散与图像组成匹配 (CDD-ICM) 的基于扩散模型的多回合组合图像生成方法,利用 CLIP 作为图像和文本编码器的主干,并在每个 M-CIG 回合中,结合门控融合机制,将参考图像和修饰文本进行组合融合,通过条件方法生成目标图像,并引入反应结果的附加图像组成匹配 (ICM) 目标来优化生成图像语义质量。同时,采用 ICM 引导和无分类器引导进一步提高性能,在 CoDraw 和 i-CLEVR 两个基准数据集上取得了最新技术水平的结果。
Apr, 2023
本篇论文提出了一种新的基于扩散模型的文本生成方法 —— extsc {RenderDiffusion},它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。
Apr, 2023
本文介绍了一种基于文本语义和像素级视觉条件同时进行的图像合成多模式方法及其框架(COW),通过诸如 COW 的方法,可以解决已有方法不能在保留低级视觉的情况下实现文本到图像合成的问题。
Jun, 2023
本文旨在提高高质量图像的合成与精确文字自定义,为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText,利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战,我们训练了 ControlNet 模型用于一致性解码,从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的 CTW-1500 数据集和自编数据集上的比较评估了 CustomText 的性能,并展示出优越的结果。
May, 2024
本研究探讨了扩散模型在文本条件下生成图像的问题,并比较了不同的指导策略:CLIP 指导和无分类器指导。 结果发现对于照片逼真度和字幕相似性,后者更受人类评估人员的青睐,还可以进行图像修复。
Dec, 2021
通过扩充背景与前景文字的整合,Diffusion Model based Text Generator (DiffText) 创造了一种能生成真实文本图像并优化文本探测器性能的新型合成数据集方法。
Nov, 2023
最近几年,在文本到图像生成模型的发展方面取得了显著进展。然而,这些模型在生成过程中仍然面临着实现完全可控性的局限性。为了解决这些挑战,提出了一种有效结合可控性和高质量的图像生成的两阶段方法。该方法通过利用预训练模型的专业知识实现对生成图像的精确控制,并利用扩散模型的强大功能实现卓越的质量。通过将可控性与高质量分开,该方法取得了出色的结果,并且与当前领域的最新方法产生了可比较的结果。总体而言,该方法在文本到图像生成方面代表了一项重大进展,实现了在生成图像质量上不妥协的同时提升了可控性。
Mar, 2024
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。
Jun, 2024