Instruct-Imagen: 多模态指导下的图像生成

Jan, 2024

Instruct-Imagen: 多模态指导下的图像生成

Instruct-Imagen: Image Generation with Multi-modal Instruction

Hexiang Hu, Kelvin C.K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li...

TL;DR本文介绍了 instruct-imagen 模型，它解决了异质图像生成任务并且可以泛化到未知任务。我们通过引入多模态指导来完成图像生成的任务表示，利用自然语言将不同的模态（如文本、边缘、风格、主题等）融合在一起，使得丰富的生成意图可以以统一的格式标准化。接着，我们通过两阶段的框架，利用预训练的文本到图像扩散模型进行精调来构建 instruct-imagen 模型。在第一阶段，我们利用检索增强训练方法使模型能够在外部多模态上更好地进行生成。随后，我们对不同的需要视觉语言理解的图像生成任务进行精调，每个任务都与一个包含任务本质的多模态指导相匹配。在各种图像生成数据集上进行的人工评估表明，instruct-imagen 在领域内与先前特定任务的模型相媲美甚至超越，并展示了对未知和更复杂任务的有希望的泛化能力。

Abstract

This paper presents instruct-imagen, a model that tackles heterogeneous image generation tasks and generalizes across unseen tasks. We introduce *multi-modal instruction* for image generation, a task representati

instruct-imagen multi-modal instruction image generation fine-tuning generalization

发现论文，激发创造

MM-Instruct: 大型多模态模型对齐的生成视觉指令

该研究介绍了 MM-Instruct，这是一个大规模、多样化和高质量的视觉指导数据集，旨在增强大型多模态模型（LMMs）的指令跟随能力，并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据，并介绍了一个基于生成的指导数据来评估现有 LMMs 的指令跟随能力的基准。

Jun, 2024

InstructSeq：将视觉任务与指令条件下的多模态序列生成统一

InstructSeq 是一种多模态建模框架，通过灵活的自然语言控制和处理视觉和文本数据，将多样化的视觉任务统一起来。通过使用 LLM 生成的自然语言指令进行训练，InstructSeq 在指定视觉任务的自由形式指令理解方面具有强大的能力，并在语义分割、引用表达分割 / 理解和图像字幕等任务上取得了令人信服的性能。该模型的灵活控制和多任务统一使其具备了类似人类的多样性和泛化能力，并且即将发布其代码。

Nov, 2023

InstructCV: 信息指导下的图文扩散模型作为视觉通才

最近，在生成式扩散模型方面取得的进展使得文本控制下合成逼真多样的图像具备了令人印象深刻的质量。但尽管取得了这些显著进展，将文本到图像生成模型应用于标准视觉识别任务的研究仍然有限。本文提出了一种计算机视觉任务的统一语言界面，该界面抽象了任务的具体设计选择，使得任务能够通过自然语言指令来执行。我们将多个计算机视觉任务转化为文本到图像生成问题，其中文本描述任务，生成的图像为视觉编码的任务输出。我们使用大规模语言模型来改写传达每个图像上要执行的特定任务的提示模板，并通过这个过程，创建了一个多模态和多任务训练数据集，包括输入图像、输出图像和带注释的指导说明。通过在构建的数据集上使用 InstructPix2Pix 架构将文本到图像扩散模型进行调节，将其功能从生成模型转变为基于指导的多任务视觉学习器。实验证明，我们的模型 InstructCV 在与其他综合和特定任务视觉模型的竞争中表现出色。而且，它还具备令人信服的对未见数据、类别和用户指令的泛化能力。

Sep, 2023

生成图解指引

生成用户定制的视觉说明书的新任务，通过结合大型语言模型和文本到图像生成扩散模型实现了一种简单方法（StackedDiffusion），在有效性、一致性和效果的度量上远远超过基线方法和最先进的多模态语言模型。

Dec, 2023

MultiInstruct: 通过指令调整提高多模态零样本学习

本研究提出了 MultiInstruct，这是第一个多模态指令调优基准数据集，旨在设计多个特定的任务和多个专家编写的指令，使用已存在的开源数据集和多个迁移学习策略来优化 OFM 模型的强零示性能，并且探索了一个新的评估指标：敏感性。

Dec, 2022

通过多模态指导实现灵活的视觉编辑

InstructAny2Pix 是一个灵活的多模态指令跟踪系统，其由多个组件组成，包括多模态编码器、扩散模型、多模态 LLM 和细化先验模块，能够根据来自音频、图像和文本的指令对输入图像进行编辑，实现了一系列新颖的指令引导编辑任务。

Dec, 2023

通过多模态大规模语言模型引导基于指导的图像编辑

通过多模态大语言模型（MLLMs）的指导，MLLM-Guided Image Editing（MGIE）学习能够提供表达性指令和明确引导的图像编辑模型，其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明，表达性指令对基于指令的图像编辑至关重要，而我们的 MGIE 在保持有竞争力的推理效率的同时，能够显著改善自动度量和人类评估。

Sep, 2023

Instruction-ViT: ViT 中用于指令学习的多模态提示

本篇论文研究了采用提示（prompt）对图片进行分类的方法，通过引入多模质询与 fine-tuning 相结合的方式，提高了图片分类的性能和领域适应性。

Apr, 2023

基于文本的神经运算：通过文本指令进行图像操作

本研究提出一种基于 GAN 的多模态图片编辑方法，利用自然语言指令局部修改图片特征，实现对包含多个对象的图像进行编辑，并在三个公共数据集上展示出优异的表现，包括更高的保真度和语义相关性以及更好的图像检索性能。

Aug, 2020

图像任意：朝着始终合理推理和无需训练的多模态图像生成

ImgAny 是一种新颖的端到端多模态生成模型，可以模仿人类推理并生成高质量图像。该方法能够有效且灵活地接收来自语言、音频和视觉等七种不同的模态组合，并通过实体融合分支和属性融合分支整合多个输入模态，并利用预训练的稳定扩散模型生成图像。大量实验证明了其在视觉内容创作方面的卓越能力。

Jan, 2024