可控生成的文本 - 图像扩散模型:一份综述
本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用;此外,介绍了文本条件下图像合成、文本引导的创意生成和图像编辑,并探讨了当前的挑战和未来方向。
Mar, 2023
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。
Jun, 2024
最近几年,在文本到图像生成模型的发展方面取得了显著进展。然而,这些模型在生成过程中仍然面临着实现完全可控性的局限性。为了解决这些挑战,提出了一种有效结合可控性和高质量的图像生成的两阶段方法。该方法通过利用预训练模型的专业知识实现对生成图像的精确控制,并利用扩散模型的强大功能实现卓越的质量。通过将可控性与高质量分开,该方法取得了出色的结果,并且与当前领域的最新方法产生了可比较的结果。总体而言,该方法在文本到图像生成方面代表了一项重大进展,实现了在生成图像质量上不妥协的同时提升了可控性。
Mar, 2024
通过研究强潜在扩散概率模型在 T2I 生成过程中的中间状态,发现图像在早期生成阶段主要由文本引导完成,之后概率模型通过自身信息来完善生成图像的细节,并进一步提出了去除文本引导以加速 T2I 生成过程的方法,加速效果达到 25%+
May, 2024
本文提出一种名为 CTIG-DM 的新方法,它结合了图像条件、文本条件和风格条件来控制样本在图像生成过程中的属性、内容和风格。经过大量的实验,证明 CTIG-DM 能够产生模拟现实世界复杂性和多样性的图像样本,具有很强的潜力用于领域适应和生成包含 OOV(Out-Of-Vocabulary)词的图像。
Jun, 2023
提出了一种新的任务,文本驱动的风格化图像生成,以进一步增强内容创造中的可编辑性,通过升级经过训练的文本到图像模型与可训练的调制网络,同时引入扩散样式和内容正则化,实现了高质量的风格化文本到图像生成。
Nov, 2023
这项研究提出了一种利用反馈机制来控制文本到图像生成模型,以生成对监督学习特别有用的训练数据的方法,并且通过引入指导目标分布的反馈机制,演示了该方法在不同任务、数据集和架构上相对于开环方法的有效性。
Mar, 2024
本文介绍了一种基于文本语义和像素级视觉条件同时进行的图像合成多模式方法及其框架(COW),通过诸如 COW 的方法,可以解决已有方法不能在保留低级视觉的情况下实现文本到图像合成的问题。
Jun, 2023
该研究探讨了图像合成模型的细粒度、连续控制,提出了一种新的语义扩散引导统一框架,可以注入预训练的无条件扩散模型的语言或图像指导,并在 FFHQ 和 LSUN 数据集上进行了实验。
Dec, 2021