一个关于扩展面向指令调整的大型多模态模型的实证研究

Sep, 2023

一个关于扩展面向指令调整的大型多模态模型的实证研究

An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models

Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao...

TL;DR通过调整视觉指导，对开源大型多模态模型进行扩展研究，探索影响多模态和语言能力的变量，发现扩展模型能够提升性能，具有与整个模型微调相当的效果，并强调了提高图像分辨率和混合多模态语言数据对性能的重要性，有时视觉指导可以提高纯语言功能。

Abstract

visual instruction tuning has recently shown encouraging progress with open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However, most existing studies of open-source LMM are performed using

visual instruction tuning open-source large multimodal models scaling parameter-efficient training methods performance enhancement

发现论文，激发创造

通过视觉指导优化的改进基准模型

通过对 LLaVA 进行简单修改，采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据，我们建立了更强的基线模型，在 11 个基准测试中达到了最新的成果。

Oct, 2023

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023

HyperLLaVA：基于动态视觉和语言专家调整的多模态大型语言模型

通过使用 HyperLLaVA 和 HyperNetworks，我们在多模态大型语言模型方面取得了巨大的进展，并在多个基准测试中显著超越了现有的解决方案。

Mar, 2024

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

多模态指令调节与条件化 LoRA 混合

通过与多模态指令调优相结合，引入了一种综合了条件的低秩适应矩阵 (MixLoRA) 的新方法，旨在减轻任务干扰，实现在多样的多模态任务中具有良好的适应性和灵活性。实验结果表明，MixLoRA 不仅在相同或更高秩的情况下胜过传统的低秩适应方法 LoRA，展现出其在各种多模态评估数据集上的有效性和适应性。

Feb, 2024

TinyLLaVA：一个小规模大型多模态模型的框架

通过 TinyLLaVA 框架的研究与实验，我们发现数据的质量、训练配方和模型选择对于设计和分析小规模的大型多模型模型非常重要；通过将更好的数据质量和更好的训练配方相结合，我们发现较小规模的模型可以与更大规模的模型达到相当的性能，这些发现可为未来的研究提供基准。

Feb, 2024

MG-LLaVA：面向多粒度视觉指导调整

采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA，在感知任务中提供了出色的表现，并且超越了相似参数规模的现有模型，具备出色的目标识别能力。

Jun, 2024

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

稳定的 LLaVA：通过合成的图像对话数据增强视觉指导调整

我们提出了一种新的数据收集方法，通过异步合成图像和对话以进行视觉指导调优，结合 ChatGPT 和文本到图像生成模型的能力，显著增强了多种模型功能。

Aug, 2023