VCoder: 用于多模态大型语言模型的多用途视觉编码器

Dec, 2023

VCoder: 用于多模态大型语言模型的多用途视觉编码器

VCoder: Versatile Vision Encoders for Multimodal Large Language Models

Jitesh Jain, Jianwei Yang, Humphrey Shi

TL;DR人类具有视觉感知的出色技能，近期多模态大型语言模型（MLLM）在视觉与语言任务上取得了令人印象深刻的性能，但在识别或计数图像中的实体方面存在一些问题。为了改善多模态 LLM 在感知和推理方面的准确性，我们提出使用 VCoder 作为多模态 LLM 的感知工具，该工具能够通过接收分割或深度图等感知方式来提升多模态 LLM 的感知能力。此外，我们利用 COCO 图像和现成的视觉感知模型输出来创建 COST 数据集，用于训练和评估 MLLM 在对象感知任务上的表现。最后，我们提供了大量的实验证据，证明了 VCoder 在对象级感知能力上相比其他多模态 LLM（包括 GPT-4V）的改进。我们公开发布了我们的数据集、代码和模型，以促进相关研究。

Abstract

Humans possess the remarkable skill of visual perception, the ability to see and understand the seen, helping them make sense of the visual world and, in turn, reason. Multimodal Large Language Models (MLLM) have recently achieved impressive performance on vision-language tasks ranging

visual perception multimodal large language models (mllm)versatile vision encoders (vcoder)coco segmentation text (cost) dataset object-level perception

发现论文，激发创造

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了 MLLMs 的视觉感知能力。

Jan, 2024

MouSi：多视觉专家视觉语言模型

使用集成专家技术，从不同的视觉编码器中协同能力，通过融合网络统一处理来自不同视觉专家的输出，并解决图像编码器和预训练 LLMs 之间的差距，同时探索不同的位置编码方案以解决位置溢出和长度限制问题，实验证明，具有多个专家的 VLMs 在性能上表现出优势，并随着集成更多专家而显著提升表现。

Jan, 2024

MR-MLLM: 多模态理解和视觉感知的相互增强

一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架，通过共享查询融合机制和增强的跨模态集成方法，结合视觉感知和多模态理解，以及混合了感知信息的提示生成机制，提供更准确的多模态解释，在各种多模态理解和视觉感知任务中展现卓越性能。

Jun, 2024

Unicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现

通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，取得了领先或可比的结果，展示了交叉模态预训练的强大能力。

Aug, 2019

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

OMG-LLaVA：图像层、对象层、像素层推理和理解的桥梁

提出了一种新颖的 OMG-LLaVA 框架，将强大的像素级视觉理解与推理能力相结合，接受各种视觉和文本提示以实现灵活的用户交互。通过将视觉信息、感知先验和视觉提示整合为 LLM 可以理解用户的文本指令，并基于视觉信息提供文本响应和像素级分割结果。OMG-LLaVA 在一个模型中实现了图像级、对象级和像素级的推理和理解，达到了或超过了多个基准测试的专门方法的性能。

Jun, 2024

PerceptionGPT: 将视觉感知有效融合到 LLM 中

本文提出了一种名为 PerceptionGPT 的新型端到端框架，通过利用 LLMs 的 token 嵌入的表示能力，高效有效地赋予 VLLMs 视觉感知能力。该方法以 LLMs 的 token 嵌入作为空间信息的携带者，利用轻量级的视觉任务编码器和解码器执行视觉感知任务（如检测、分割），有效缓解了以往将视觉输出离散化为 token 的训练困难，并且能够在更少的可训练参数、较少的训练数据和较短的训练时间内实现更优越的性能。此外，由于推理过程中只需要一个 token 嵌入来解码视觉输出，结果序列长度可大幅减少。因此，该方法能够实现准确灵活的表示，无缝集成视觉感知任务，并高效处理多个视觉输出，通过广泛的实验证实了该方法的有效性和效率，结果表明，在更少的可训练参数和 GPU 时间的情况下取得了显著的改进，为未来赋予 LLMs 视觉感知能力的研究提供了便利。

Nov, 2023

VisionLLM：大型语言模型也是面向视觉中心任务的开放式解码器

本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM，通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理，从而统一了视觉和语言任务的视角，具有不同级别的任务定制能力，成为一种通用的视觉和语言模型。

May, 2023

人类与多模态 LLMs 之间的视觉认知差距是什么？

我们提出了一个新数据集 MaRs-VQA 和一个新的基准 VCog-Bench，以评估 Multimodal Large Language Models 的零射击 Abstract Visual Reasoning 能力，并将其与现有的人类智能研究进行比较。我们的实验结果揭示了当前 MLLMs 在视觉认知方面存在的局限性。

Jun, 2024

MoVA: 将多模态背景下的视觉专家混合进行调整

通过将任务特定视觉专家与粗到细的机制自适应地路由和融合，MoVA 可在各种具有挑战性的多模态基准测试中显著提高性能。

Apr, 2024