跨模态适配器：高效的多模态大型语言模型

Aug, 2024

跨模态适配器：高效的多模态大型语言模型

CROME: Cross-Modal Adapters for Efficient Multimodal LLM

Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister

TL;DR本研究解决了多模态大语言模型在成本效益训练和适应性方面的挑战，现有方法通常需要昂贵的语言模型重训练且适应性有限。本研究提出的CROME框架通过新颖的门控跨模态适配器有效组合视觉和文本表示，展示了在视觉问答和指令跟随基准测试上的卓越零-shot性能，并在参数效率方面与任务特定的最佳方法相竞争，揭示了预训练语言模型对构建可扩展和高效的多模态模型的潜力。

Abstract

Multimodal Large Language Models (MLLMs) demonstrate remarkable image-language capabilities, but their widespread use faces challenges in cost-effective training and adaptation. Existing approaches often necessitate expensive →

发现论文，激发创造

利用单模编码器进行视觉语言任务的多模适应蒸馏

提出了一种名为MAD的方法，可以使用预训练的单模态视觉和文本编码器对跨模态VL编码器进行自适应蒸馏，从而提高了跨模态学习的性能，特别是在VCR领域取得了SOTA表现。

Apr, 2022

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建LLMs和VL任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于LaBIn大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

面向通用多模态助手的视觉语言基础模型和数据集的重新构建

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素：用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现，紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 '开箱即用' 的桥梁。基于此，我们提出了 Muffin 框架，直接使用预训练的视觉语言模型作为视觉信号的提供者。此外，我们还提出了 UniMM-Chat 数据集，探索了数据集之间的补充关系，生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能，显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。

Oct, 2023

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

通过视觉指导优化的改进基准模型

通过对LLaVA进行简单修改，采用CLIP-ViT-L-336px与MLP投影以及添加面向学术任务的VQA数据，我们建立了更强的基线模型，在11个基准测试中达到了最新的成果。

Oct, 2023

Ziya-VL: 多任务指导微调的双语大型视觉语言模型

通过引入视觉语义，将大规模的视觉-语言模型 (LVLMs) 融合到多模态对话中，Ziya-VL 在英语和汉语多模态场景中展现出了具有竞争力的图片-文本生成和理解能力。

Oct, 2023

基于深度学习的视觉-语言任务统一框架

通过引入pool-adapter模块，保留视觉嵌入的位置信息，我们的InfMLLM方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

X-InstructBLIP: 一种将X-Modal指导感知表示与LLMs和新兴的跨模态推理对齐的框架

我们在这篇论文中介绍了一个简单而有效的跨模态框架，利用现有的大型语言模型，在2D视觉推理任务中通过将视觉编码器与最先进的语言模型对齐，展现了通用功能。我们通过收集高质量的调整数据，自动和可扩展地收集音频和3D方面QA样本，以便实现指导模态的微调。通过利用指导感知表达，我们的模型在无需大规模特定模态的预训练或自定义的情况下，表现出与领先模型相当的性能。此外，我们的方法展现出在两个或更多输入模态中进行跨模态推理的能力，尽管每个模态投影都是单独训练的。为了研究模型的跨模态能力，我们提出了一个新颖的鉴别跨模态推理（DisCRn）评估任务，包括9K个音频-视频QA样本和28K个图像-3D QA样本，要求模型在不同的输入模态之间进行鉴别性推理。

Nov, 2023

通过自我改进增强大型视觉语言模型中的视觉-语言模态对齐

通过自我改进提高视觉与语言模态的对齐性的SIMA框架在14个幻觉和综合基准测试中展示了改进模型性能和优越的模态对齐，超过了先前的方法。

May, 2024

EMMA：多模态大语言模型中的高效视觉对齐

本研究针对多模态大语言模型中视觉编码与语言模型融合不佳的问题，提出了一种轻量级的跨模态模块EMMA，实现高效的视觉与文本编码融合。研究显示，EMMA在多个任务中的性能提升可达9.3%，并显著增强了模型对幻觉现象的鲁棒性。

Oct, 2024