InstructPix2Pix: 学习图像编辑指令

Nov, 2022

InstructPix2Pix: Learning to Follow Image Editing Instructions

Tim Brooks, Aleksander Holynski, Alexei A. Efros

TL;DR我们提出了一种图像编辑方法，可以根据用户的书面指令编辑图像，同时我们结合了两个预训练模型的知识生成了大量训练数据，使用训练好的模型可以快速地编辑图像，并且可以适用于不同的输入图像和书面指令。

Abstract

We propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine the knowledge of two large pretra

image editing human instructions language model text-to-image model conditional diffusion model

发现论文，激发创造

InstructPix2Pix 高级图像上色的微调

本研究运用细调 InstructPix2Pix 模型的方法，将语言模型 GPT-3 与文本到图像模型 Stable Diffusion 相结合，以解决 InstructPix2Pix 模型在着色领域的限制，并通过使用 IMDB-WIKI 数据集进行模型的细调，成功地改善了图像着色任务的性能并生成了更加真实的彩色图像。

Dec, 2023

通过多模态指导实现灵活的视觉编辑

InstructAny2Pix 是一个灵活的多模态指令跟踪系统，其由多个组件组成，包括多模态编码器、扩散模型、多模态 LLM 和细化先验模块，能够根据来自音频、图像和文本的指令对输入图像进行编辑，实现了一系列新颖的指令引导编辑任务。

Dec, 2023

InstructRL4Pix：通过强化学习训练图像编辑的扩散

通过使用增强学习引导图像编辑方法（InstructRL4Pix）来生成由目标对象的注意力地图引导的图像扩散模型，该方法通过计算注意力地图之间的距离作为奖励函数来最大化奖励模型的输出，并使用邻近策略优化（PPO）对扩散模型进行微调，以实现基于自然人命令的准确图像编辑。实验证实 InstructRL4Pix 突破了传统数据集的限制，利用无监督学习来优化编辑目标，并实现了精确的图像编辑。

Jun, 2024

Pix2Pix-OnTheFly：借助 LLMs 实现指导图像编辑

该研究论文通过语言处理和图像处理的组合吸引了越来越多的关注，其中一项最具挑战性的任务是仅基于自然语言指令对图像进行编辑。本论文提出了一种无需准备的方法，通过图像字幕和 DDIM 反演、获取编辑方向嵌入以及图像编辑等三个步骤有效地进行指令引导的图像编辑，该方法在 MAGICBRUSH 数据集上表现出色，优于最新的先进模型。

Mar, 2024

InstructVid2Vid：自然语言控制视频编辑

本文介绍了一种基于预训练模型和条件式 3D U-Net 结构的、可以通过自然语言指令编辑视频的方法，同时提出了一种新的视帧差异损失函数，可以在训练过程中提高生成视频的时序一致性，实验表明该方法生成的视频质量高、时序连贯，能够进行多种视频编辑操作。

May, 2023

ReasonPix2Pix: 提供高级图像编辑功能的指导推理数据集

通过引入 ReasonPix2Pix 数据集，同时增强主动推理能力和赋予编辑模型智能化，我们在受过监督训练的条件下优化模型，展示了在需要推理和不需要推理的指令编辑任务中优越的性能。

May, 2024

学习忠实地遵循以物体为中心的图像编辑指令

自然语言指令与图像编辑相结合，通过改进的数据增加监督信号，使模型能够优于最先进的基线技术，在细粒度物体中心编辑方面取得了显著的改进，同时还能推广到训练过程中未见过的领域。

Oct, 2023

InstructEdit：通过用户指令改进基于扩散的图像编辑自动蒙版

本文提出了一种名为 InstructEdit 的框架，其中包括了语言处理器，分段器和图像编辑器三个组件，这种框架可以根据用户的指令进行细粒度的编辑，且在输入图像中包含复杂对象或多个对象的精细编辑应用中表现优异。

May, 2023

InstructCV: 信息指导下的图文扩散模型作为视觉通才

最近，在生成式扩散模型方面取得的进展使得文本控制下合成逼真多样的图像具备了令人印象深刻的质量。但尽管取得了这些显著进展，将文本到图像生成模型应用于标准视觉识别任务的研究仍然有限。本文提出了一种计算机视觉任务的统一语言界面，该界面抽象了任务的具体设计选择，使得任务能够通过自然语言指令来执行。我们将多个计算机视觉任务转化为文本到图像生成问题，其中文本描述任务，生成的图像为视觉编码的任务输出。我们使用大规模语言模型来改写传达每个图像上要执行的特定任务的提示模板，并通过这个过程，创建了一个多模态和多任务训练数据集，包括输入图像、输出图像和带注释的指导说明。通过在构建的数据集上使用 InstructPix2Pix 架构将文本到图像扩散模型进行调节，将其功能从生成模型转变为基于指导的多任务视觉学习器。实验证明，我们的模型 InstructCV 在与其他综合和特定任务视觉模型的竞争中表现出色。而且，它还具备令人信服的对未见数据、类别和用户指令的泛化能力。

Sep, 2023

SmartEdit: 利用多模型大型语言模型探索基于复杂指令的图像编辑

SmartEdit 是一种基于指令的图像编辑方法，利用多模态大型语言模型（MLLMS）增强理解和推理能力，并通过双向交互模块实现输入图像和 MLLM 输出之间的综合双向信息交互，从而实现更复杂指令下的图像编辑。通过新构建的 Reason-Edit 评估数据集，定量和定性结果表明 SmartEdit 优于先前的方法，为复杂指令 - based 图像编辑的实际应用铺平了道路。

Dec, 2023