通过多模态指导实现灵活的视觉编辑

Dec, 2023

通过多模态指导实现灵活的视觉编辑

InstructAny2Pix: Flexible Visual Editing via Multimodal Instruction Following

Shufan Li, Harkanwar Singh, Aditya Grover

TL;DRInstructAny2Pix 是一个灵活的多模态指令跟踪系统，其由多个组件组成，包括多模态编码器、扩散模型、多模态 LLM 和细化先验模块，能够根据来自音频、图像和文本的指令对输入图像进行编辑，实现了一系列新颖的指令引导编辑任务。

Abstract

The ability to provide fine-grained control for generating and editing visual imagery has profound implications for computer vision and its applications. Previous works have explored extending controllability in two directions: instruction tuning with text-based prompts and multi-modal

fine-grained control visual imagery multi-modal instruction-following system diffusion model instruction-guided editing

发现论文，激发创造

InstructPix2Pix: 学习图像编辑指令

我们提出了一种图像编辑方法，可以根据用户的书面指令编辑图像，同时我们结合了两个预训练模型的知识生成了大量训练数据，使用训练好的模型可以快速地编辑图像，并且可以适用于不同的输入图像和书面指令。

Nov, 2022

Instruct-Imagen: 多模态指导下的图像生成

本文介绍了 instruct-imagen 模型，它解决了异质图像生成任务并且可以泛化到未知任务。我们通过引入多模态指导来完成图像生成的任务表示，利用自然语言将不同的模态（如文本、边缘、风格、主题等）融合在一起，使得丰富的生成意图可以以统一的格式标准化。接着，我们通过两阶段的框架，利用预训练的文本到图像扩散模型进行精调来构建 instruct-imagen 模型。在第一阶段，我们利用检索增强训练方法使模型能够在外部多模态上更好地进行生成。随后，我们对不同的需要视觉语言理解的图像生成任务进行精调，每个任务都与一个包含任务本质的多模态指导相匹配。在各种图像生成数据集上进行的人工评估表明，instruct-imagen 在领域内与先前特定任务的模型相媲美甚至超越，并展示了对未知和更复杂任务的有希望的泛化能力。

Jan, 2024

SmartEdit: 利用多模型大型语言模型探索基于复杂指令的图像编辑

SmartEdit 是一种基于指令的图像编辑方法，利用多模态大型语言模型（MLLMS）增强理解和推理能力，并通过双向交互模块实现输入图像和 MLLM 输出之间的综合双向信息交互，从而实现更复杂指令下的图像编辑。通过新构建的 Reason-Edit 评估数据集，定量和定性结果表明 SmartEdit 优于先前的方法，为复杂指令 - based 图像编辑的实际应用铺平了道路。

Dec, 2023

Pix2Pix-OnTheFly：借助 LLMs 实现指导图像编辑

该研究论文通过语言处理和图像处理的组合吸引了越来越多的关注，其中一项最具挑战性的任务是仅基于自然语言指令对图像进行编辑。本论文提出了一种无需准备的方法，通过图像字幕和 DDIM 反演、获取编辑方向嵌入以及图像编辑等三个步骤有效地进行指令引导的图像编辑，该方法在 MAGICBRUSH 数据集上表现出色，优于最新的先进模型。

Mar, 2024

InstructVid2Vid：自然语言控制视频编辑

本文介绍了一种基于预训练模型和条件式 3D U-Net 结构的、可以通过自然语言指令编辑视频的方法，同时提出了一种新的视帧差异损失函数，可以在训练过程中提高生成视频的时序一致性，实验表明该方法生成的视频质量高、时序连贯，能够进行多种视频编辑操作。

May, 2023

通过多模态大规模语言模型引导基于指导的图像编辑

通过多模态大语言模型（MLLMs）的指导，MLLM-Guided Image Editing（MGIE）学习能够提供表达性指令和明确引导的图像编辑模型，其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明，表达性指令对基于指令的图像编辑至关重要，而我们的 MGIE 在保持有竞争力的推理效率的同时，能够显著改善自动度量和人类评估。

Sep, 2023

Instruction-ViT: ViT 中用于指令学习的多模态提示

本篇论文研究了采用提示（prompt）对图片进行分类的方法，通过引入多模质询与 fine-tuning 相结合的方式，提高了图片分类的性能和领域适应性。

Apr, 2023

InstructPix2Pix 高级图像上色的微调

本研究运用细调 InstructPix2Pix 模型的方法，将语言模型 GPT-3 与文本到图像模型 Stable Diffusion 相结合，以解决 InstructPix2Pix 模型在着色领域的限制，并通过使用 IMDB-WIKI 数据集进行模型的细调，成功地改善了图像着色任务的性能并生成了更加真实的彩色图像。

Dec, 2023

基于文本的神经运算：通过文本指令进行图像操作

本研究提出一种基于 GAN 的多模态图片编辑方法，利用自然语言指令局部修改图片特征，实现对包含多个对象的图像进行编辑，并在三个公共数据集上展示出优异的表现，包括更高的保真度和语义相关性以及更好的图像检索性能。

Aug, 2020

InstructCV: 信息指导下的图文扩散模型作为视觉通才

最近，在生成式扩散模型方面取得的进展使得文本控制下合成逼真多样的图像具备了令人印象深刻的质量。但尽管取得了这些显著进展，将文本到图像生成模型应用于标准视觉识别任务的研究仍然有限。本文提出了一种计算机视觉任务的统一语言界面，该界面抽象了任务的具体设计选择，使得任务能够通过自然语言指令来执行。我们将多个计算机视觉任务转化为文本到图像生成问题，其中文本描述任务，生成的图像为视觉编码的任务输出。我们使用大规模语言模型来改写传达每个图像上要执行的特定任务的提示模板，并通过这个过程，创建了一个多模态和多任务训练数据集，包括输入图像、输出图像和带注释的指导说明。通过在构建的数据集上使用 InstructPix2Pix 架构将文本到图像扩散模型进行调节，将其功能从生成模型转变为基于指导的多任务视觉学习器。实验证明，我们的模型 InstructCV 在与其他综合和特定任务视觉模型的竞争中表现出色。而且，它还具备令人信服的对未见数据、类别和用户指令的泛化能力。

Sep, 2023