融入视觉专家解决多模态大语言模型中的信息损失

Jan, 2024

融入视觉专家解决多模态大语言模型中的信息损失

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models

Xin He, Longhui Wei, Lingxi Xie, Qi Tian

TL;DR这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了 MLLMs 的视觉感知能力。

Abstract

multimodal large language models (MLLMs) are experiencing rapid growth, yielding a plethora of noteworthy contributions in recent months. The prevailing trend involves adopting data-driven methodologies, wherein

multimodal large language models data-driven methodologies visual perception ability mixture-of-experts knowledge enhancement mechanism visual experts

发现论文，激发创造

MouSi：多视觉专家视觉语言模型

使用集成专家技术，从不同的视觉编码器中协同能力，通过融合网络统一处理来自不同视觉专家的输出，并解决图像编码器和预训练 LLMs 之间的差距，同时探索不同的位置编码方案以解决位置溢出和长度限制问题，实验证明，具有多个专家的 VLMs 在性能上表现出优势，并随着集成更多专家而显著提升表现。

Jan, 2024

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

MLLMs 增强的视觉 - 语言表示学习

我们展示了多模态大型语言模型（MLLMs）通过提高数据质量来增强视觉语言表示学习，使用 MLLMs 扩展每个图像的多个标题，通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格，并在图像文本检索中，在微调和零样本设置下分别获得 5.6〜35.0％和 16.8〜46.1％的 R@1 提升，并且我们的零样本结果可与目标数据集上的微调相媲美，鼓励更多对 MLLMs 的多方面使用的探索。

Nov, 2023

MoVA: 将多模态背景下的视觉专家混合进行调整

通过将任务特定视觉专家与粗到细的机制自适应地路由和融合，MoVA 可在各种具有挑战性的多模态基准测试中显著提高性能。

Apr, 2024

多模态 LLM 的视觉缺陷探究

通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究，我们发现最新的多模态大型语言模型（MLLMs）在视觉能力方面仍然存在系统性缺陷。为了解决这些问题，我们提出了一种特征混合（MoF）方法，通过将视觉自监督学习特征与 MLLMs 相结合，显著提高了它们的视觉基础能力，从而表明视觉表示学习仍然是一个待解决的问题，并且准确的视觉基础对于未来成功的多模态系统至关重要。

Jan, 2024

MR-MLLM: 多模态理解和视觉感知的相互增强

一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架，通过共享查询融合机制和增强的跨模态集成方法，结合视觉感知和多模态理解，以及混合了感知信息的提示生成机制，提供更准确的多模态解释，在各种多模态理解和视觉感知任务中展现卓越性能。

Jun, 2024

从图像到视频，多模态 LLMs 需要什么？

提出一种高效的方法，通过调整图像多模态语言模型的图像融合模块，利用图像多模态语言模型的先验知识，实现从图像到视频多模态语言模型的资源高效转换，从而提高视频多模态语言模型的时间理解能力，以更少的数据和资源进行训练。

Apr, 2024

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

赋能多模态知识存储和共享的视觉增强 LLMs

通过 MKC2 散裝部件集成到 LLMs 中，来存储和分享多模态知识，以增强 LLMs 的推理能力，从而在需要物理或常识知识的上下文中提供竞争性结果。

Nov, 2023

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024