InstructEdit：通过用户指令改进基于扩散的图像编辑自动蒙版

May, 2023

InstructEdit：通过用户指令改进基于扩散的图像编辑自动蒙版

InstructEdit: Improving Automatic Masks for Diffusion-based Image Editing With User Instructions

Qian Wang, Biao Zhang, Michael Birsak, Peter Wonka

TL;DR本文提出了一种名为 InstructEdit 的框架，其中包括了语言处理器，分段器和图像编辑器三个组件，这种框架可以根据用户的指令进行细粒度的编辑，且在输入图像中包含复杂对象或多个对象的精细编辑应用中表现优异。

Abstract

Recent works have explored text-guided image editing using diffusion models and generated edited images based on text prompts. However, the models struggle to accurately locate the regions to be edited and faithfully perform precise edits. In this work, we propose a framework termed

text-guided image editing instructedit segmentation caption fine-grained editing

发现论文，激发创造

基于扩散的语义图像编辑与掩模引导

本文提出了一种基于条件扩散模型的语义图像编辑方法 DiffEdit，能够自动生成需要编辑的图像区域的遮罩，并利用潜在推理保留感兴趣区域的内容，该方法在 ImageNet 数据集上实现了最先进的编辑表现。

Oct, 2022

通过可学习区域实现基于文本的图像编辑

这篇论文介绍了一种基于文本提示的区域图像编辑方法，无需用户提供的掩码或草图，通过利用现有的预训练文本到图像模型和引入边界框生成器来找到与文本提示对齐的编辑区域，实现了与当前图像生成模型兼容的灵活的编辑，并处理了包含多个对象、复杂句子或长段落的复杂提示。通过广泛的用户研究实验证明我们方法在操纵图像时与提供的语言描述相一致，具有高保真度和逼真度的竞争性表现。

Nov, 2023

Imagen Editor 和 EditBench：推进和评估文本引导的图像修补

本文提出了一种基于文本指导的图像编辑系统 Imagen Editor，通过利用对象检测器提出文本提示的修复遮罩并使用高分辨率图像来处理细节来实现忠实于输入文本且与输入图像一致的编辑，并提出一个名为 EditBench 的系统化基准来评估编辑效果。研究发现在训练过程中进行对象遮罩处理，可以显著提高文本与图像的对齐度和整体渲染效果，同时相较于文本渲染而言，这种方法在物体渲染和处理材料 / 颜色 / 大小属性上效果更佳。

Dec, 2022

InstructPix2Pix: 学习图像编辑指令

我们提出了一种图像编辑方法，可以根据用户的书面指令编辑图像，同时我们结合了两个预训练模型的知识生成了大量训练数据，使用训练好的模型可以快速地编辑图像，并且可以适用于不同的输入图像和书面指令。

Nov, 2022

通过混合掩膜信息融合提升文本到图像编辑

基于扩散模型，本文旨在系统性地改进文本引导的图像编辑技术，以解决其局限性，通过在模型的自注意机制中引入人为注释来限制编辑范围，并将编辑后的图像与源图像和构建的中间图像进行融合，实验证明所提出的 ``MaSaFusion'' 显著提高了现有的文本到图像编辑技术。

May, 2024

学习忠实地遵循以物体为中心的图像编辑指令

自然语言指令与图像编辑相结合，通过改进的数据增加监督信号，使模型能够优于最先进的基线技术，在细粒度物体中心编辑方面取得了显著的改进，同时还能推广到训练过程中未见过的领域。

Oct, 2023

基于扩散的高效图像编辑与即时关注蒙版

我们在这篇论文中提出了一种名为 InstDiffEdit 的新型高效图像编辑方法，它利用现有扩散模型的跨模态注意力能力，在扩散步骤中实现了即时的遮罩引导。我们将 InstDiffEdit 与 SOTA 方法进行了广泛的实验证明，结果显示它在图像质量和编辑结果方面不仅优于 SOTA 方法，而且推理速度快 5 至 6 倍。

Jan, 2024

iEdit: 弱监督下的本地化文本指导图像编辑

提出了一种新的学习方法 iEdit，用于文本引导的图像编辑，包括数据集的自动构建、无监督损失函数和分割掩模引导编辑。该模型在 200K 个样本的数据集上进行训练，并在图像保真度、CLIP 对齐性得分和编辑生成和真实图像方面显示出优越的结果。

May, 2023

Pix2Pix-OnTheFly：借助 LLMs 实现指导图像编辑

该研究论文通过语言处理和图像处理的组合吸引了越来越多的关注，其中一项最具挑战性的任务是仅基于自然语言指令对图像进行编辑。本论文提出了一种无需准备的方法，通过图像字幕和 DDIM 反演、获取编辑方向嵌入以及图像编辑等三个步骤有效地进行指令引导的图像编辑，该方法在 MAGICBRUSH 数据集上表现出色，优于最新的先进模型。

Mar, 2024

自然图像文本编辑的混合扩散

本文介绍了一种基于自然语言描述和兴趣区域掩码进行本地（面向区域的）在通用自然图像中进行编辑的解决方案，利用 CLIP 预训练语言 - 图像模型指导编辑并使用扩散概率模型生成自然外观结果，以及应用扩散过程的增强进行抗击对抗攻击；通过在多个基线和相关方法上的定量和定性比较，表明该方法在整体逼真度、保护背景和匹配文本方面均优于现有解决方案，并展示了多种文本驱动的编辑应用，如添加新对象，删除 / 替换 / 修改现有对象，背景替换和图像推理。

Nov, 2021