FreeEdit：基于参考的无掩膜图像编辑与多模态指令

Sep, 2024

FreeEdit：基于参考的无掩膜图像编辑与多模态指令

FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction

Runze He, Kai Ma, Linjiang Huang, Shaofei Huang, Jialin Gao...

TL;DR本研究解决了现有图像编辑方法中缺乏用户指定视觉概念的问题，提出了FreeEdit，一种新颖的参考图像编辑方法。该方法通过多模态指令编码器与解耦残差参考注意力模块，精确地根据语言指令指导编辑过程，并且实现了高质量的零-shot 编辑，展示了其在多个任务类型上的卓越性能。

Abstract

Introducing user-specified visual concepts in Image Editing is highly practical as these concepts convey the user's intent more precisely than text-based descriptions. We propose FreeEdit, a novel approach for achieving such →

发现论文，激发创造

基于语言的图像编辑基准和基线

本文介绍了一种利用语言驱动的图像编辑技术节省大量编辑工作量并对摄影新手友好，作者提出了一种支持本地和全局编辑的新技术方法，并构建了一个数据集用于支持本文所提出方法的研发，并且该方法在用户数据测试中表现良好，能够自动预测操作参数，具有高度的可解释性。

Oct, 2020

Imagen Editor和EditBench：推进和评估文本引导的图像修补

本文提出了一种基于文本指导的图像编辑系统Imagen Editor，通过利用对象检测器提出文本提示的修复遮罩并使用高分辨率图像来处理细节来实现忠实于输入文本且与输入图像一致的编辑，并提出一个名为EditBench的系统化基准来评估编辑效果。研究发现在训练过程中进行对象遮罩处理，可以显著提高文本与图像的对齐度和整体渲染效果，同时相较于文本渲染而言，这种方法在物体渲染和处理材料/颜色/大小属性上效果更佳。

Dec, 2022

InstructEdit：通过用户指令改进基于扩散的图像编辑自动蒙版

本文提出了一种名为InstructEdit的框架，其中包括了语言处理器，分段器和图像编辑器三个组件，这种框架可以根据用户的指令进行细粒度的编辑，且在输入图像中包含复杂对象或多个对象的精细编辑应用中表现优异。

May, 2023

视觉指令反演：通过视觉提示进行图像编辑

通过视觉提示的图像编辑方法可以实现具有竞争力的成果。

Jul, 2023

通过多模态指导实现灵活的视觉编辑

InstructAny2Pix是一个灵活的多模态指令跟踪系统，其由多个组件组成，包括多模态编码器、扩散模型、多模态LLM和细化先验模块，能够根据来自音频、图像和文本的指令对输入图像进行编辑，实现了一系列新颖的指令引导编辑任务。

Dec, 2023

SmartEdit: 利用多模型大型语言模型探索基于复杂指令的图像编辑

SmartEdit是一种基于指令的图像编辑方法，利用多模态大型语言模型（MLLMS）增强理解和推理能力，并通过双向交互模块实现输入图像和MLLM输出之间的综合双向信息交互，从而实现更复杂指令下的图像编辑。通过新构建的Reason-Edit评估数据集，定量和定性结果表明SmartEdit优于先前的方法，为复杂指令-based图像编辑的实际应用铺平了道路。

Dec, 2023

InstructGIE: 通向通用图像编辑的探索

一个新的图像编辑框架，通过增强上下文学习能力和统一语言指导以提高泛化鲁棒性，利用VMamba Block和编辑偏移匹配策略来增强图像编辑任务的能力，并结合选择性区域匹配技术和语言统一技术来改善生成图像的质量，同时提供第一个利用视觉提示和编辑指导的图像编辑数据集来提高上下文能力。

Mar, 2024

DesignEdit: 多层次潜空间分解与融合的统一精准图像编辑

通过将空间感知图像编辑任务转化为多层隐变量分解和多层隐变量融合两个子任务，结合遮罩自注意力和抑制伪影技术，我们提出了一种统一的框架，实现精确图像编辑，并证明该方法在各种准确图像编辑任务中的性能超过了最新的空间编辑方法。

Mar, 2024

UltraEdit: 内指令细粒度图像编辑规模化

该论文介绍了UltraEdit，一个大规模（约400万编辑样本），自动生成的面向基于指令的图像编辑的数据集。该数据集通过利用大型语言模型的创造性以及人工评定员提供的上下文编辑示例，解决了现有图像编辑数据集如InstructPix2Pix和MagicBrush的缺点，并提供了系统性的方法来生成大规模高质量的图像编辑样本。UltraEdit不仅可以通过扩大编辑指令的范围来进行编辑，还支持基于区域的编辑，并通过高质量的自动生成的区域注释进行增强。实验证明，基于UltraEdit训练的经典扩散式编辑基线在MagicBrush和Emu-Edit基准上取得了新的记录。进一步的分析也证实了真实图像锚点和基于区域的编辑数据的关键作用。该数据集、代码和模型可以在此https URL找到。

Jul, 2024

FlexEdit：将自由形状掩膜与VLLM结合实现灵活的图像编辑

本研究解决了用户通过语言指令进行图像编辑时，指令往往难以准确传达需求的问题。提出的FlexEdit方法结合自由形状掩膜与语言指令，通过Mask Enhance Adapter（MEA）实现了掩膜信息与模型输出的无缝融合。实验结果表明，该方法在基于大型语言模型的图像编辑中达到当前最优性能，并且其简单的提示技术效果明显。

Aug, 2024