MIMIC-IT: 多模态环境下指令调整

Jun, 2023

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu...

TL;DR介绍了包含大规模多模态指令响应对的 MIMIC-IT 数据集，使用该数据集训练的 Otter 模型表现出出色的多模态感知、推理和语境学习能力，能有效地与用户意图保持一致。

Abstract

High-quality instructions and responses are essential for the zero-shot performance of large language models on interactive natural language tasks. For interactive vision-language tasks involving intricate visual scenes, a large quantity of diverse and creative instruction-response pairs should be imperative to tune →

multimodal instruction-response pairs vision-language models mimic-it dataset perception otter model

发现论文，激发创造

M$^3$IT: 多模态多语言指令调整的大规模数据集

本文介绍了 Multi-Modal Multilingual Instruction Tuning 数据集，其中包含了 40 个经过精心筛选的数据集，共 2.4 百万个实例和 400 个任务指令，可用于优化视觉语言模型的人类指令对齐，同时介绍了在此数据集上训练的 Ying-VLM 视觉语言模型的表现。

Jun, 2023

Otter：一种上下文指令微调的多模态模型

本文介绍了一种在多模态模型中引入指令调整的方法，同时介绍了一个基于 OpenFlamingo 模型的 Otter 模型，它在 MIMIC-IT 数据集上训练，展示出提高的指令遵循能力和情境学习。同时，作者还优化了 OpenFlamingo 的实现方式，使更多研究人员能够将这些模型集成到自己的训练和推理流程中。

May, 2023

SVIT：扩展视觉指导调整

通过构建包括 160 万对问答对、106 千个详细图像描述的 320 万视觉指令调整数据集，对多模态模型进行训练可显著提高其在视觉感知、推理和规划方面的多模态性能。

Jul, 2023

MultiInstruct: 通过指令调整提高多模态零样本学习

本研究提出了 MultiInstruct，这是第一个多模态指令调优基准数据集，旨在设计多个特定的任务和多个专家编写的指令，使用已存在的开源数据集和多个迁移学习策略来优化 OFM 模型的强零示性能，并且探索了一个新的评估指标：敏感性。

Dec, 2022

3DMIT: 3D 多模态指导调整用于场景理解

我们构建了一个包含 75K 个指令 - 回答对的广泛数据集，针对 3D 场景进行了任务，如 3D VQA、3D grounding 和 3D conversation，并引入了一种名为 3DMIT 的新颖且高效的提示调优范例，通过将 3D 空间信息整合到 LLMs 中，使其更好地理解 3D 世界。

Jan, 2024

Instruction-ViT: ViT 中用于指令学习的多模态提示

本篇论文研究了采用提示（prompt）对图片进行分类的方法，通过引入多模质询与 fine-tuning 相结合的方式，提高了图片分类的性能和领域适应性。

Apr, 2023

MMICL: 视觉语言模型的多模态上下文学习

通过考虑模型和数据的角度，提出了 MMICL 去解决图像与文本交叉多模态提示的问题，通过无需训练的数据更好地适应用户真实应用中复杂的提示，其中包括多模态上下文与交叉的图像和文本、每个图像的文本参考以及具有空间、逻辑或时间关系的多图像数据。在广泛的视觉 - 语言任务中，特别是在复杂推理基准测试中，MMICL 取得了新的最先进的零样本和少样本性能。同时，对 ScienceQA-IMG 上的实验表明 MMICL 成功缓解了视觉 - 语言模型中的语言偏差问题，我们相信这是 MMICL 卓越性能背后的原因。

Sep, 2023

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

MANTIS: 并行多图像指令调优

通过使用学术级资源进行指导调整，我们构建了多弱像素 LMMs，结合了多个单像素视觉语言数据集，证明了以低成本的指导调整构建多弱像素 LMMs 的效果比密集预训练更好。

May, 2024