MouSi：多视觉专家视觉语言模型

Jan, 2024

MouSi: Poly-Visual-Expert Vision-Language Models

Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin...

TL;DR使用集成专家技术，从不同的视觉编码器中协同能力，通过融合网络统一处理来自不同视觉专家的输出，并解决图像编码器和预训练 LLMs 之间的差距，同时探索不同的位置编码方案以解决位置溢出和长度限制问题，实验证明，具有多个专家的 VLMs 在性能上表现出优势，并随着集成更多专家而显著提升表现。

Abstract

Current large vision-language models (VLMs) often encounter challenges such as insufficient capabilities of a single visual component and excessively long visual tokens. These issues can limit the model's effectiveness in accurately interpreting complex visual information and over-leng

vision-language models ensemble experts technique visual encoders positional encoding performance boost

发现论文，激发创造

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了 MLLMs 的视觉感知能力。

Jan, 2024

稀疏专家混合下的视觉语言模型扩展

本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力，通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了宝贵的洞见，并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。

Mar, 2023

MoVA: 将多模态背景下的视觉专家混合进行调整

通过将任务特定视觉专家与粗到细的机制自适应地路由和融合，MoVA 可在各种具有挑战性的多模态基准测试中显著提高性能。

Apr, 2024

VLMo：混合模态专家的统一视觉语言预训练

本研究提出了统一的视觉 - 语言预训练模型 (VLMo)，通过模块化的 Transformer 网络共同学习双编码器和融合编码器。实验结果表明，VLMo 在各种视觉 - 语言任务中取得了最先进的结果。

Nov, 2021

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

BRAVE：拓宽视觉语言模型的视觉编码

通常，视觉语言模型（VLM）由视觉编码器（例如 CLIP）和解释编码特征以解决下游任务的语言模型（LM）组成。我们研究拓展 VLM 的视觉编码能力以应对其局限性，我们首先全面评估了几个具有不同归纳偏差的视觉编码器在解决 VLM 任务时的性能。我们观察到，没有一种单一的编码配置能在不同任务中始终达到最佳性能，具有不同偏差的编码器可以表现出令人惊讶的相似性。出于这个动机，我们提出了一种名为 BRAVE 的方法，该方法将多个冻结的编码器的特征整合成更多变的表示，并直接作为冻结的 LM 的输入。BRAVE 在广泛的字幕生成和视觉问答基准上实现了最先进的性能，并显著减轻了 VLM 的先前问题，同时需要比现有方法更少的可训练参数并具有更紧凑的表示。我们的结果突显了将不同的视觉偏差纳入 VLM 以获得更广泛和上下文化的视觉理解的潜力。

Apr, 2024

VoCo-LLaMA：面向大型语言模型的视觉压缩

基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation，实现了视觉压缩并提高推理效率，能够理解时间相关性，在多模态应用中具有广泛的潜力。

Jun, 2024

赋能多模态知识存储和共享的视觉增强 LLMs

通过 MKC2 散裝部件集成到 LLMs 中，来存储和分享多模态知识，以增强 LLMs 的推理能力，从而在需要物理或常识知识的上下文中提供竞争性结果。

Nov, 2023

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024