MultiInstruct: 通过指令调整提高多模态零样本学习

Dec, 2022

MultiInstruct: 通过指令调整提高多模态零样本学习

MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning

Zhiyang Xu, Ying Shen, Lifu Huang

TL;DR本研究提出了 MultiInstruct，这是第一个多模态指令调优基准数据集，旨在设计多个特定的任务和多个专家编写的指令，使用已存在的开源数据集和多个迁移学习策略来优化 OFM 模型的强零示性能，并且探索了一个新的评估指标：敏感性。

Abstract

instruction tuning, a new learning paradigm that fine-tunes pre-trained language models on tasks specified through instructions, has shown promising zero-shot performance on various natural language processing tasks. However, it's still not explored for vision and →

instruction tuning multimodal tasks pre-trained models transfer learning evaluation metric

发现论文，激发创造

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

指导性调整的模型具有快速学习能力

本文研究指令优化对增强模型转移学习和增强其在不同自然语言处理任务方面的效果，并表明在使用指令的预微调下，模型在单任务和多任务方面的性能都得到了提高。

May, 2023

精调语言模型是零 - shot 学习器

通过对自然语言指令模板中的 60 个自然语言处理任务进行调整，我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估，结果表明，通过指令调整，可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。

Sep, 2021

INSTRAUG: 多模态指令微调的自动指令增强

通过自动指令增强方法名 INSTRAUG 的多模态任务中的精调大型语言模型（LLMs）可以在 12 个多模态任务中显著提高多模态大型语言模型（MLLMs）的对齐度，相当于多次扩大训练数据的好处。

Feb, 2024

InstructDial：通过指令调整提高对话中的零样本和少样本泛化能力

介绍 InstructDial，一个对话指令优化框架，用于提高 NLP 模型在对话相关任务中的零 Shot 和 few-shot 性能，其中包括 48 个具有多样性的对话任务，使用元任务确保模型遵循指令。

May, 2022

视觉语言指导调整：综述与分析

通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾，我们总结出高质量图像语言调整数据的特点，构建了完整的数据收集、指令生成和质量控制模块的构建流水线，并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整，并通过相应的度量指标进行了大量实验，以论证本文提出的构建原则的合理性。

Nov, 2023

InstructBLIP：通过指导微调实现通用的视觉 - 语言模型

本研究系统全面地研究了基于预训练系统的 BLIP-2 视觉语言模型的指导调整方法。通过构建 InstructBLIP 模型和使用指导语音特征提取，该模型在 13 个测试集上全面超越 BLIP-2 和更大的 Flamingo 模型，在单个下游任务的微调中获得了最先进的性能。

May, 2023

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023

InstructionGPT-4：Fine-Tuning MiniGPT-4 的 200 指令范式

通过在图像文本对上进行预训练和在受监督的视觉语言指导数据上进行微调的两阶段训练，多模态大型语言模型实现了其遵循指令的能力。本文介绍了 InstructionGPT-4，该模型在仅包括 200 个示例的小数据集上进行了微调，相当于 MiniGPT-4 对齐数据集中使用的指令遵循数据的约 6％。我们首先提出了几个用于评估多模态指令数据质量的度量标准。基于这些度量标准，我们提出了一种简单而有效的数据选择器，用于自动识别和过滤低质量的视觉语言数据。采用这种方法，InstructionGPT-4 在各种评估（如视觉问答、GPT-4 偏好）上的表现优于原始的 MiniGPT-4。总的来说，我们的研究结果表明，较少但高质量的微调数据能够有效地提高多模态大型语言模型的输出质量。

Aug, 2023

Instruct-Imagen: 多模态指导下的图像生成

本文介绍了 instruct-imagen 模型，它解决了异质图像生成任务并且可以泛化到未知任务。我们通过引入多模态指导来完成图像生成的任务表示，利用自然语言将不同的模态（如文本、边缘、风格、主题等）融合在一起，使得丰富的生成意图可以以统一的格式标准化。接着，我们通过两阶段的框架，利用预训练的文本到图像扩散模型进行精调来构建 instruct-imagen 模型。在第一阶段，我们利用检索增强训练方法使模型能够在外部多模态上更好地进行生成。随后，我们对不同的需要视觉语言理解的图像生成任务进行精调，每个任务都与一个包含任务本质的多模态指导相匹配。在各种图像生成数据集上进行的人工评估表明，instruct-imagen 在领域内与先前特定任务的模型相媲美甚至超越，并展示了对未知和更复杂任务的有希望的泛化能力。

Jan, 2024