可视锚点是多模态大语言模型的强信息聚合器

May, 2024

可视锚点是多模态大语言模型的强信息聚合器

Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model

Haogeng Liu, Quanzeng You, Xiaotian Han, Yongfei Liu, Huaibo Huang...

TL;DR本研究提出了一种强大的视觉 - 语言连接器，通过挖掘视觉锚点并在预训练中利用其丰富的先验知识，实现高准确性和低计算成本的多模态大型语言模型。通过广泛的实验验证，该方法相比基线方法将计算成本减少了三分之二，同时表现更好，突显了 AcFormer 的效果和效率。

Abstract

In the realm of multimodal large language models (MLLMs), vision-language connector plays a crucial role to link the pre-trained vision encoders with Large Language Models (LLMs). Despite its importance, the vision-language connector has been relatively less explored. In this study, we

multimodal large language models vision-language connector anchor former visual anchors computational costs

发现论文，激发创造

MLLMs 的密集连接器

我们引入了密集连接器 —— 一个简单、有效且即插即用的视觉语言连接器，通过利用多层视觉特征显著增强现有的多模态大型语言模型 (MLLMs)，并且在仅依靠图像训练的情况下，展示了在视频理解方面的显著零样本能力。

May, 2024

解耦语言预训练引导视觉 - 语言学习

该论文提出了一种新的方法，使用 Prompt-Transformer 模型，基于语言数据而不是图像 - 文本配对来预测理想 prompts，从而优化了资源密集型视觉语言预训练过程，提高了大语言模型的性能。

Jul, 2023

连接语音编码器和大型语言模型用于 ASR

该论文通过比较研究了三种常用的连接结构，包括全连接层、多头交叉注意力和 Q-Former，并对 Whisper 系列的语音编码器和 Vicuna 系列的大语言模型进行了实验，结果表明基于 Q-Former 的大语言模型相比其他连接结构在 LibriSpeech、Common Voice 和 GigaSpeech 数据集上均取得了一致且显著的词错误率降低。此外，提出了一种新颖的片段级 Q-Former，使大语言模型能够识别超过编码器限制的持续时间的语音片段，在 90 秒长的语音数据上相比其他连接结构取得了 17% 的词错误率降低。

Sep, 2023

面向通用多模态助手的视觉语言基础模型和数据集的重新构建

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素：用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现，紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 ' 开箱即用 ' 的桥梁。基于此，我们提出了 Muffin 框架，直接使用预训练的视觉语言模型作为视觉信号的提供者。此外，我们还提出了 UniMM-Chat 数据集，探索了数据集之间的补充关系，生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能，显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。

Oct, 2023

MoVA: 将多模态背景下的视觉专家混合进行调整

通过将任务特定视觉专家与粗到细的机制自适应地路由和融合，MoVA 可在各种具有挑战性的多模态基准测试中显著提高性能。

Apr, 2024

通过视觉指导优化的改进基准模型

通过对 LLaVA 进行简单修改，采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据，我们建立了更强的基线模型，在 11 个基准测试中达到了最新的成果。

Oct, 2023

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了 MLLMs 的视觉感知能力。

Jan, 2024

通过跨模态跳跃连接实现有效和高效的视觉 - 语言学习的 mPLUG

mPLUG 是一个新的视觉语言基础模型，通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题，通过对大规模图像 - 文本对的端到端预训练，具有良好的视觉和语言能力，并在图像字幕生成、图像 - 文本检索、视觉定位和视觉问答等一系列视觉语言场景下实现了最先进的结果，并且具有很强的零样本学习能力。

May, 2022

大语言模型权重的视觉感知

通过参数空间对齐，我们提出了一种新颖的方法来表示视觉信息，将其表示为模型权重，并使用感知权重与 LLM 的权重进行合并。这种方法不需要视觉令牌作为 LLM 的输入，从而减少了输入序列的长度并大大提高了效率。我们的 VLoRA 基于此方法，通过感知权重生成器将视觉特征转换为低秩属性的感知权重，通过在各种基准测试中实验证明，VLoRA 在 MLLMs 上实现了可比较的性能，并显著降低了训练和推断的计算成本。

May, 2024

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023