FlexEdit：将自由形状掩膜与VLLM结合实现灵活的图像编辑

Aug, 2024

FlexEdit：将自由形状掩膜与VLLM结合实现灵活的图像编辑

FlexEdit: Marrying Free-Shape Masks to VLLM for Flexible Image Editing

Jue Wang, Yuxiang Lin, Tianshuo Yuan, Zhi-Qi Cheng, Xiaolong Wang...

TL;DR本研究解决了用户通过语言指令进行图像编辑时，指令往往难以准确传达需求的问题。提出的FlexEdit方法结合自由形状掩膜与语言指令，通过Mask Enhance Adapter（MEA）实现了掩膜信息与模型输出的无缝融合。实验结果表明，该方法在基于大型语言模型的图像编辑中达到当前最优性能，并且其简单的提示技术效果明显。

Abstract

Combining Vision Large Language Models (VLLMs) with Diffusion Models offers a powerful method for executing Image Editing tasks based on human language instructions. However, language instructions alone often fal

发现论文，激发创造

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

本文介绍了一种新的VLP方法：MLIM，它使用Masked Language Modeling和Image Reconstruction两种损失函数以及Modality Aware Masking技术来增强语言和图片之间的交互，并在e-commerce多模态数据集上展示了更好的下游任务表现。

Sep, 2021

FlexIT: 柔性语义图像翻译

通过引入FlexIT，可以使用用户定义的文本指令编辑任意输入图像，并通过多项规范化项确保其连贯性和质量，从而扩展了语义图像转换的界限。

Mar, 2022

InstructEdit：通过用户指令改进基于扩散的图像编辑自动蒙版

本文提出了一种名为InstructEdit的框架，其中包括了语言处理器，分段器和图像编辑器三个组件，这种框架可以根据用户的指令进行细粒度的编辑，且在输入图像中包含复杂对象或多个对象的精细编辑应用中表现优异。

May, 2023

通过多模态大规模语言模型引导基于指导的图像编辑

通过多模态大语言模型（MLLMs）的指导，MLLM-Guided Image Editing（MGIE）学习能够提供表达性指令和明确引导的图像编辑模型，其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明，表达性指令对基于指令的图像编辑至关重要，而我们的MGIE在保持有竞争力的推理效率的同时，能够显著改善自动度量和人类评估。

Sep, 2023

基于深度学习的视觉-语言任务统一框架

通过引入pool-adapter模块，保留视觉嵌入的位置信息，我们的InfMLLM方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

InstructGIE: 通向通用图像编辑的探索

一个新的图像编辑框架，通过增强上下文学习能力和统一语言指导以提高泛化鲁棒性，利用VMamba Block和编辑偏移匹配策略来增强图像编辑任务的能力，并结合选择性区域匹配技术和语言统一技术来改善生成图像的质量，同时提供第一个利用视觉提示和编辑指导的图像编辑数据集来提高上下文能力。

Mar, 2024

灵活可控的基于扩散的对象中心图像编辑（FlexEdit）

我们提出了FlexEdit，这是一个灵活且可控的对象编辑框架，通过FlexEdit块在每个去噪步骤迭代地调整潜变量，解决了先前对象为中心编辑问题中存在的限制，例如由于形状差异而导致的不真实结果和对对象替换或插入的有限控制性。

Mar, 2024

归因分析与模型编辑的结合：通过VisEdit推动视觉语言模型的知识纠正

本研究解决了视觉语言模型（VLLMs）中对知识更新和纠正的不足，提出了一种基于视觉表示和文本输入重要性的新型模型编辑工具——VisEdit。研究表明，视觉表示在中后层的影响力显著，有助于提高模型对于复杂提示的知识纠正能力，VisEdit在多个基准数据集上的表现优于现有的编辑方法。

Aug, 2024

Click2Mask：动态遮罩生成的局部编辑

本研究针对局部图像编辑中对精确遮罩要求高的问题，提出了Click2Mask方法，仅需一个参考点（外加内容描述）即可动态生成遮罩。实验表明，该方法在用户操作简便性和局部图像处理效果上均优于现有最先进技术，具有显著的应用潜力。

Sep, 2024

FreeEdit：基于参考的无掩膜图像编辑与多模态指令

本研究解决了现有图像编辑方法中缺乏用户指定视觉概念的问题，提出了FreeEdit，一种新颖的参考图像编辑方法。该方法通过多模态指令编码器与解耦残差参考注意力模块，精确地根据语言指令指导编辑过程，并且实现了高质量的零-shot 编辑，展示了其在多个任务类型上的卓越性能。

Sep, 2024