Cheap and Quick: 大型语言模型高效的视觉语言指导调整

May, 2023

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

Gen Luo, Yiyi Zhou, Tianhe Ren, Shengxin Chen, Xiaoshuai Sun...

TL;DR本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

Abstract

Recently, growing interest has been aroused in extending the multimodal capability of large language models (llms), e.g., vision-language (VL) learning, which is regarded as the next milestone of artificial general intelligence. However, existing solutions are prohibitively expensive,

llms vision-language learning mixture-of-modality adaptation lavin multimodal llms

发现论文，激发创造

通过视觉指导优化的改进基准模型

通过对 LLaVA 进行简单修改，采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据，我们建立了更强的基线模型，在 11 个基准测试中达到了最新的成果。

Oct, 2023

HyperLLaVA：基于动态视觉和语言专家调整的多模态大型语言模型

通过使用 HyperLLaVA 和 HyperNetworks，我们在多模态大型语言模型方面取得了巨大的进展，并在多个基准测试中显著超越了现有的解决方案。

Mar, 2024

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023

LLaMA-Adapter V2: 参数高效的视觉指令模型

本文介绍 LlaMA-Adapter V2，是一种解锁更多可学习参数并引入早期融合策略、共同训练数据的参数高效视觉指令模型，可用于多模态推理，对于开放式的视觉指令，具有更强的泛化能力。

Apr, 2023

MG-LLaVA：面向多粒度视觉指导调整

采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA，在感知任务中提供了出色的表现，并且超越了相似参数规模的现有模型，具备出色的目标识别能力。

Jun, 2024

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

面向通用多模态助手的视觉语言基础模型和数据集的重新构建

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素：用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现，紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 ' 开箱即用 ' 的桥梁。基于此，我们提出了 Muffin 框架，直接使用预训练的视觉语言模型作为视觉信号的提供者。此外，我们还提出了 UniMM-Chat 数据集，探索了数据集之间的补充关系，生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能，显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。

Oct, 2023

一个关于扩展面向指令调整的大型多模态模型的实证研究

通过调整视觉指导，对开源大型多模态模型进行扩展研究，探索影响多模态和语言能力的变量，发现扩展模型能够提升性能，具有与整个模型微调相当的效果，并强调了提高图像分辨率和混合多模态语言数据对性能的重要性，有时视觉指导可以提高纯语言功能。

Sep, 2023