通过规划学习：语言指导的全局图像编辑

CVPRJun, 2021

通过规划学习：语言指导的全局图像编辑

Learning by Planning: Language-Guided Global Image Editing

Jing Shi, Ning Xu, Yihang Xu, Trung Bui, Franck Dernoncourt...

TL;DR该研究提出了一种基于文本到操作的模型，用于将编辑语言请求转换为一系列可解释且可区分的编辑操作，同时提出了一种操作规划算法以生成从目标图像中的伪地面真实性中可能的编辑序列。

Abstract

Recently, language-guided global image editing draws increasing attention with growing application potentials. However, previous gan-based methods are not only confined to domain-specific, low-resolution data but

language-guided global image editing gan-based methods text-to-operation model editing operations operation planning algorithm

发现论文，激发创造

iEdit: 弱监督下的本地化文本指导图像编辑

提出了一种新的学习方法 iEdit，用于文本引导的图像编辑，包括数据集的自动构建、无监督损失函数和分割掩模引导编辑。该模型在 200K 个样本的数据集上进行训练，并在图像保真度、CLIP 对齐性得分和编辑生成和真实图像方面显示出优越的结果。

May, 2023

通过文本描述学习全局图片编辑

该研究采用基于 RNN 和 GAN 的三种不同可训练模型实现了全局图像编辑，并使用 Amazon Mechanical Turk 收集文本描述用于训练这些系统，同时发现用 Graph RNN 代替 RNN 可以提高性能。

Oct, 2018

学习忠实地遵循以物体为中心的图像编辑指令

自然语言指令与图像编辑相结合，通过改进的数据增加监督信号，使模型能够优于最先进的基线技术，在细粒度物体中心编辑方面取得了显著的改进，同时还能推广到训练过程中未见过的领域。

Oct, 2023

InstructGIE: 通向通用图像编辑的探索

一个新的图像编辑框架，通过增强上下文学习能力和统一语言指导以提高泛化鲁棒性，利用 VMamba Block 和编辑偏移匹配策略来增强图像编辑任务的能力，并结合选择性区域匹配技术和语言统一技术来改善生成图像的质量，同时提供第一个利用视觉提示和编辑指导的图像编辑数据集来提高上下文能力。

Mar, 2024

基于语言的图像编辑基准和基线

本文介绍了一种利用语言驱动的图像编辑技术节省大量编辑工作量并对摄影新手友好，作者提出了一种支持本地和全局编辑的新技术方法，并构建了一个数据集用于支持本文所提出方法的研发，并且该方法在用户数据测试中表现良好，能够自动预测操作参数，具有高度的可解释性。

Oct, 2020

Pix2Pix-OnTheFly：借助 LLMs 实现指导图像编辑

该研究论文通过语言处理和图像处理的组合吸引了越来越多的关注，其中一项最具挑战性的任务是仅基于自然语言指令对图像进行编辑。本论文提出了一种无需准备的方法，通过图像字幕和 DDIM 反演、获取编辑方向嵌入以及图像编辑等三个步骤有效地进行指令引导的图像编辑，该方法在 MAGICBRUSH 数据集上表现出色，优于最新的先进模型。

Mar, 2024

通过多模态大规模语言模型引导基于指导的图像编辑

通过多模态大语言模型（MLLMs）的指导，MLLM-Guided Image Editing（MGIE）学习能够提供表达性指令和明确引导的图像编辑模型，其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明，表达性指令对基于指令的图像编辑至关重要，而我们的 MGIE 在保持有竞争力的推理效率的同时，能够显著改善自动度量和人类评估。

Sep, 2023

通过可学习区域实现基于文本的图像编辑

这篇论文介绍了一种基于文本提示的区域图像编辑方法，无需用户提供的掩码或草图，通过利用现有的预训练文本到图像模型和引入边界框生成器来找到与文本提示对齐的编辑区域，实现了与当前图像生成模型兼容的灵活的编辑，并处理了包含多个对象、复杂句子或长段落的复杂提示。通过广泛的用户研究实验证明我们方法在操纵图像时与提供的语言描述相一致，具有高保真度和逼真度的竞争性表现。

Nov, 2023

Forgedit：通过学习和遗忘进行文本指导的图像编辑

通过图像重建、文本嵌入以及使用 UNet 结构和扩散模型，我们设计了一种新的文本引导图像编辑方法 Forgedit，具有强大的编辑能力，并在具有挑战性的文本引导图像编辑基准测试 TEdBench 中超越了以往的方法 Imagic，实现了最新的 state-of-the-art 结果。

Sep, 2023

区域：零样本指导下的局部编辑

基于 Zero-shot 指令引导的局部图像编辑方法 ZONE 通过转换用户提供的指令，实现了对特定图像区域的任意操作，同时保留其他区域的编辑友好性，展现了出色的局部编辑效果，优于现有的最先进方法。

Dec, 2023