Jun, 2024

多模态引导下的图像编辑与文本到图像扩散模型调查

TL;DR图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。