探究基于文本引导的遥感图像单幅编辑
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。
Jun, 2024
该研究提出了一种基于文本到操作的模型,用于将编辑语言请求转换为一系列可解释且可区分的编辑操作,同时提出了一种操作规划算法以生成从目标图像中的伪地面真实性中可能的编辑序列。
Jun, 2021
通过提出名为 E4C 的零样本图像编辑方法,我们在保留源图像内容的同时,通过推理阶段优化来显式增强可编辑性和文本对齐,实现了有效解决现有方法中存在的文本对齐问题,并在广泛的编辑任务中表现良好。
Mar, 2024
本文介绍了最新的文本引导下的图像和形状生成技术,包括生成逼真图像、艺术品和人体姿态,从文本描述自动填充图像和形状等。共概述了 50 份论文,并提出了一些研究思路。
Apr, 2023
为了生成用户定制的视觉内容,本文提出了一种时空引导自适应编辑算法 AdapEdit,通过引入软注意力策略从时空角度动态变化编辑条件对视觉像素的引导程度,成功实现了自适应图像编辑,并在各种原始图像和编辑指令上展示了竞争性能并显著超越了以前的方法。
Dec, 2023
本文提出了一种利用 Image Information Removal 模块来精准地去除原始图像中与颜色和纹理相关的信息,以更好地保存文本不相关内容并避免相同映射问题,从而实现文本到图像编辑的方法。我们的方法在三个基准数据集上达到了最佳的可编辑性 - 保真度的平衡,并且我们的编辑图像比 COCO 上的之前的艺术作品更受注释者的欢迎。
May, 2023
提出了一种新的学习方法 iEdit,用于文本引导的图像编辑,包括数据集的自动构建、无监督损失函数和分割掩模引导编辑。该模型在 200K 个样本的数据集上进行训练,并在图像保真度、CLIP 对齐性得分和编辑生成和真实图像方面显示出优越的结果。
May, 2023
通过图像重建、文本嵌入以及使用 UNet 结构和扩散模型,我们设计了一种新的文本引导图像编辑方法 Forgedit,具有强大的编辑能力,并在具有挑战性的文本引导图像编辑基准测试 TEdBench 中超越了以往的方法 Imagic,实现了最新的 state-of-the-art 结果。
Sep, 2023