通过多模态大规模语言模型引导基于指导的图像编辑

Sep, 2023

通过多模态大规模语言模型引导基于指导的图像编辑

Guiding Instruction-based Image Editing via Multimodal Large Language Models

Tsu-Jui Fu, Wenze Hu, Xianzhi Du, William Yang Wang, Yinfei Yang...

TL;DR通过多模态大语言模型（MLLMs）的指导，MLLM-Guided Image Editing（MGIE）学习能够提供表达性指令和明确引导的图像编辑模型，其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明，表达性指令对基于指令的图像编辑至关重要，而我们的 MGIE 在保持有竞争力的推理效率的同时，能够显著改善自动度量和人类评估。

Abstract

instruction-based image editing improves the controllability and flexibility of image manipulation via natural commands without elaborate descriptions or regional masks. However, human instructions are sometimes too brief for current methods to capture and follow. →

instruction-based image editing multimodal large language models mllm-guided image editing expressive instructions automatic metrics

发现论文，激发创造

SmartEdit: 利用多模型大型语言模型探索基于复杂指令的图像编辑

SmartEdit 是一种基于指令的图像编辑方法，利用多模态大型语言模型（MLLMS）增强理解和推理能力，并通过双向交互模块实现输入图像和 MLLM 输出之间的综合双向信息交互，从而实现更复杂指令下的图像编辑。通过新构建的 Reason-Edit 评估数据集，定量和定性结果表明 SmartEdit 优于先前的方法，为复杂指令 - based 图像编辑的实际应用铺平了道路。

Dec, 2023

Pix2Pix-OnTheFly：借助 LLMs 实现指导图像编辑

该研究论文通过语言处理和图像处理的组合吸引了越来越多的关注，其中一项最具挑战性的任务是仅基于自然语言指令对图像进行编辑。本论文提出了一种无需准备的方法，通过图像字幕和 DDIM 反演、获取编辑方向嵌入以及图像编辑等三个步骤有效地进行指令引导的图像编辑，该方法在 MAGICBRUSH 数据集上表现出色，优于最新的先进模型。

Mar, 2024

赋能视觉语言模型来遵循交替视觉语言指令

综合评估了多模态大型语言模型的指导遵循能力，并引入了 I4 基准测试，提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略，从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah，达到了 I4 中所有任务的零样本表现的最新水平，并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。

Aug, 2023

InstructGIE: 通向通用图像编辑的探索

一个新的图像编辑框架，通过增强上下文学习能力和统一语言指导以提高泛化鲁棒性，利用 VMamba Block 和编辑偏移匹配策略来增强图像编辑任务的能力，并结合选择性区域匹配技术和语言统一技术来改善生成图像的质量，同时提供第一个利用视觉提示和编辑指导的图像编辑数据集来提高上下文能力。

Mar, 2024

通过规划学习：语言指导的全局图像编辑

该研究提出了一种基于文本到操作的模型，用于将编辑语言请求转换为一系列可解释且可区分的编辑操作，同时提出了一种操作规划算法以生成从目标图像中的伪地面真实性中可能的编辑序列。

Jun, 2021

MoEController: 使用混合专家控制器进行基于指令的任意图像操作

基于扩散模型的文字引导图像生成在开放领域图像处理任务中取得了令人惊讶的进展，本研究提出了一种混合专家控制器的方法，以将不同类型的人类指令与不同的扩散模型的文字引导能力相结合，实现对各种开放领域图像处理任务的处理。

Sep, 2023

InstructEdit：用于大型语言模型的指令基础知识编辑

大规模语言模型的知识编辑可以提供一种有效的解决方案，以改变模型的行为而不会对整体性能产生负面影响。为了解决当前方法在任务上的有限泛化能力的问题，我们采取了第一步来分析知识编辑中的多任务泛化问题。具体而言，我们开发了一种基于指令的编辑技术，称为 InstructEdit，它通过简单的指令同时促进编辑器对不同任务性能的适应。通过仅使用一个统一的编辑器为每个大规模语言模型，我们经验证明 InstructEdit 可以提高编辑器的控制能力，在多任务编辑设置中可平均提高 14.86％的可靠性。此外，涉及未见任务的实验表明 InstructEdit 始终优于先前的强基准。为了进一步研究基于指令的知识编辑的基本机制，我们分析了编辑梯度方向的主要成分，发现指令可以帮助控制具有更强的无法覆盖的泛化能力的优化方向。代码和数据集将在此 https URL 中提供。

Feb, 2024

LLMGA: 基于多模态大型语言模型的生成助手

该研究介绍了一种基于多模态大型语言模型的生成助手（LLMGA），利用大型语言模型（LLM）中内在的知识和理解能力，帮助用户进行图像生成和编辑，通过精确控制生成提示实现对稳定扩散（SD）的控制，以提供更精细、准确的内容和更直观的网络解释性，同时还提出了一个两阶段的训练方案来优化 SD 的生成结果，并引入基于参考的恢复网络来减少图像编辑过程中生成区域与保留区域之间的纹理、亮度和对比度差异。广泛的实验结果表明，LLMGA 具有很好的生成能力，并能以交互方式在更广泛的应用中发挥作用。

Nov, 2023

基于循环注意模型的语言图像编辑

本文介绍了一种通过自然语言描述编辑图片的方法，使用基于递归注意力模型的通用框架，包括图像分割和图像着色两个子任务，并引入终止门来动态决定是否从文本描述中继续提取信息，该框架在 CoSaL、ReferIt 和 Oxford-102 Flowers 数据集上取得了良好的效果。

Nov, 2017

学习忠实地遵循以物体为中心的图像编辑指令

自然语言指令与图像编辑相结合，通过改进的数据增加监督信号，使模型能够优于最先进的基线技术，在细粒度物体中心编辑方面取得了显著的改进，同时还能推广到训练过程中未见过的领域。

Oct, 2023