MoVA: 将多模态背景下的视觉专家混合进行调整

Apr, 2024

MoVA: 将多模态背景下的视觉专家混合进行调整

MoVA: Adapting Mixture of Vision Experts to Multimodal Context

Zhuofan Zong, Bingqi Ma, Dazhong Shen, Guanglu Song, Hao Shao...

TL;DR通过将任务特定视觉专家与粗到细的机制自适应地路由和融合，MoVA 可在各种具有挑战性的多模态基准测试中显著提高性能。

Abstract

As the key component in multimodal large language models (MLLMs), the ability of the visual encoder greatly affects MLLM's understanding on diverse image content. Although some large-scale →

multimodal large language models visual encoder pretrained vision encoders mova expert routing

发现论文，激发创造

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了 MLLMs 的视觉感知能力。

Jan, 2024

VLMo：混合模态专家的统一视觉语言预训练

本研究提出了统一的视觉 - 语言预训练模型 (VLMo)，通过模块化的 Transformer 网络共同学习双编码器和融合编码器。实验结果表明，VLMo 在各种视觉 - 语言任务中取得了最先进的结果。

Nov, 2021

MouSi：多视觉专家视觉语言模型

使用集成专家技术，从不同的视觉编码器中协同能力，通过融合网络统一处理来自不同视觉专家的输出，并解决图像编码器和预训练 LLMs 之间的差距，同时探索不同的位置编码方案以解决位置溢出和长度限制问题，实验证明，具有多个专家的 VLMs 在性能上表现出优势，并随着集成更多专家而显著提升表现。

Jan, 2024

MoE-LLaVA：大规模视觉语言模型的专家混合

本文介绍了一种针对大型视觉语言模型 (LVLMs) 的训练策略 MoE-tuning，通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型，有效解决多模态学习和模型稀疏性带来的性能退化问题。此外，本文还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LLaVA，通过在部署过程中仅激活前 k 个专家，使剩余的专家处于非活跃状态。实验证明，MoE-LLaVA 在视觉理解方面具有出色的能力，并且在模型输出的对象幻象基准测试中超越了 LLaVA-1.5-13B，在各种视觉理解数据集上表现可与 LLaVA-1.5-7B 相媲美。通过 MoE-LLaVA，我们旨在为稀疏 LVLMs 建立基准，并为未来开发更高效和有效的多模态学习系统提供有价值的见解。

Jan, 2024

通过专家混合适配器增强视觉语言模型的持续学习

提出了一种参数高效的持续学习框架，通过在视觉语言模型中动态扩展一个预训练的 CLIP 模型，采用专家混合（Mixture-of-Experts）适配器以应对新任务，并引入分布鉴别自动选择器（DDAS）以保留视觉语言模型的零样本识别能力，并通过各种实验验证，该方法在提升性能的同时减少了 60% 的参数训练负担。

Mar, 2024

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

稀疏专家混合下的视觉语言模型扩展

本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力，通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了宝贵的洞见，并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。

Mar, 2023

MG-LLaVA：面向多粒度视觉指导调整

采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA，在感知任务中提供了出色的表现，并且超越了相似参数规模的现有模型，具备出色的目标识别能力。

Jun, 2024

CuMo：多模态 LLM 与协同升级混合专家的扩展

CuMo 是一种在多模态大型语言模型上通过使用混合专家模块来提高模型性能的方法，其在可扩展性和推理成本方面的优势使其在各种可视问答和视觉指令遵循基准上超越了现有的多模态语言模型。

May, 2024

多模态 LLM 的视觉缺陷探究

通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究，我们发现最新的多模态大型语言模型（MLLMs）在视觉能力方面仍然存在系统性缺陷。为了解决这些问题，我们提出了一种特征混合（MoF）方法，通过将视觉自监督学习特征与 MLLMs 相结合，显著提高了它们的视觉基础能力，从而表明视觉表示学习仍然是一个待解决的问题，并且准确的视觉基础对于未来成功的多模态系统至关重要。

Jan, 2024