MANTIS: 并行多图像指令调优

May, 2024

MANTIS: Interleaved Multi-Image Instruction Tuning

Dongfu Jiang, Xuan He, Huaye Zeng, Cong Wei, Max Ku...

TL;DR通过使用学术级资源进行指导调整，我们构建了多弱像素 LMMs，结合了多个单像素视觉语言数据集，证明了以低成本的指导调整构建多弱像素 LMMs 的效果比密集预训练更好。

Abstract

The recent years have witnessed a great array of large multimodal models (LMMs) to effectively solve single-image vision language tasks. However, their abilities to solve multi-image visual language tasks is yet to be improved. The existing multi-image lmms (e.g. OpenFlamingo, Emu, Ide

multi-image lmms instruction tuning mantis-instruct academic-level resources single-image visual-language datasets

发现论文，激发创造

MultiInstruct: 通过指令调整提高多模态零样本学习

本研究提出了 MultiInstruct，这是第一个多模态指令调优基准数据集，旨在设计多个特定的任务和多个专家编写的指令，使用已存在的开源数据集和多个迁移学习策略来优化 OFM 模型的强零示性能，并且探索了一个新的评估指标：敏感性。

Dec, 2022

MIMIC-IT: 多模态环境下指令调整

介绍了包含大规模多模态指令响应对的 MIMIC-IT 数据集，使用该数据集训练的 Otter 模型表现出出色的多模态感知、推理和语境学习能力，能有效地与用户意图保持一致。

Jun, 2023

赋能视觉语言模型来遵循交替视觉语言指令

综合评估了多模态大型语言模型的指导遵循能力，并引入了 I4 基准测试，提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略，从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah，达到了 I4 中所有任务的零样本表现的最新水平，并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。

Aug, 2023

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

MIA-Bench: 多模态 LLMs 的更好指令遵循评估

我们引入了 MIA-Bench，一个新的基准测试，旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型，我们发现性能存在显著差异，突出了指令准确性方面的改进空间。此外，我们创建了额外的训练数据，并探索监督微调来提高模型在严格遵循指令的能力，而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度，还能指导未来的多模态大型语言模型训练方法的发展。

Jul, 2024

M$^3$IT: 多模态多语言指令调整的大规模数据集

本文介绍了 Multi-Modal Multilingual Instruction Tuning 数据集，其中包含了 40 个经过精心筛选的数据集，共 2.4 百万个实例和 400 个任务指令，可用于优化视觉语言模型的人类指令对齐，同时介绍了在此数据集上训练的 Ying-VLM 视觉语言模型的表现。

Jun, 2023

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

Instruct-Imagen: 多模态指导下的图像生成

本文介绍了 instruct-imagen 模型，它解决了异质图像生成任务并且可以泛化到未知任务。我们通过引入多模态指导来完成图像生成的任务表示，利用自然语言将不同的模态（如文本、边缘、风格、主题等）融合在一起，使得丰富的生成意图可以以统一的格式标准化。接着，我们通过两阶段的框架，利用预训练的文本到图像扩散模型进行精调来构建 instruct-imagen 模型。在第一阶段，我们利用检索增强训练方法使模型能够在外部多模态上更好地进行生成。随后，我们对不同的需要视觉语言理解的图像生成任务进行精调，每个任务都与一个包含任务本质的多模态指导相匹配。在各种图像生成数据集上进行的人工评估表明，instruct-imagen 在领域内与先前特定任务的模型相媲美甚至超越，并展示了对未知和更复杂任务的有希望的泛化能力。

Jan, 2024

Mosaic IT：利用数据镶嵌增强指令调优

通过引入 Mosaic Instruction Tuning (Mosaic-IT) 方法，本研究提供了一种人 / 模型无关的有效方式来增强通过现有指令调校数据进行细调训练的语言模型的能力，并实现了一致优于各种基准测试、训练成本减少 80% 的性能提升。

May, 2024

MM-Instruct: 大型多模态模型对齐的生成视觉指令

该研究介绍了 MM-Instruct，这是一个大规模、多样化和高质量的视觉指导数据集，旨在增强大型多模态模型（LMMs）的指令跟随能力，并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据，并介绍了一个基于生成的指导数据来评估现有 LMMs 的指令跟随能力的基准。

Jun, 2024