OMG-LLaVA：图像层、对象层、像素层推理和理解的桥梁

Jun, 2024

OMG-LLaVA：图像层、对象层、像素层推理和理解的桥梁

OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu...

TL;DR提出了一种新颖的 OMG-LLaVA 框架，将强大的像素级视觉理解与推理能力相结合，接受各种视觉和文本提示以实现灵活的用户交互。通过将视觉信息、感知先验和视觉提示整合为 LLM 可以理解用户的文本指令，并基于视觉信息提供文本响应和像素级分割结果。OMG-LLaVA 在一个模型中实现了图像级、对象级和像素级的推理和理解，达到了或超过了多个基准测试的专门方法的性能。

Abstract

Current universal segmentation methods demonstrate strong capabilities in pixel-level image and video understanding. However, they lack reasoning abilities and cannot be controlled via text instructions. In contrast, large →

universal segmentation methods vision-language multimodal models pixel-level understanding reasoning abilities flexible user interaction

发现论文，激发创造

MG-LLaVA：面向多粒度视觉指导调整

采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA，在感知任务中提供了出色的表现，并且超越了相似参数规模的现有模型，具备出色的目标识别能力。

Jun, 2024

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

LLM-Seg：图像分割与大型语言模型推理的桥梁

通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割，这是一项新颖任务，通过大型语言模型推理来解释和识别隐含的用户意图，从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架，有效地将当前的基础分割模型和 LLM 连接起来，通过掩码提案选择实现。同时，我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明，我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外，我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。

Apr, 2024

强化多模态大语言模型的分割能力

我们扩展了多模态大语言模型（MLLMs）的输出，通过赋予其分割能力，从而使其能够同时输出与图像 - 语言提示相关的语言响应并分割语言提示中复杂问题或查询所关注的区域。我们提出了一种名为 LLaVASeg 的新颖 MLLMs 框架，利用连续思维提示策略指导 MLLMs 对用户查询的目标区域进行分割，从而保持了原始 MLLMs 的对话能力并赋予了 MLLMs 模型强大的推理分割能力。

Mar, 2024

LLaVA-UHD: 一种感知任何纵横比和高分辨率图像的 LMM

LLaVA-UHD 是一种大型多模态模型，其中包括图像模块化策略、压缩模块和空间模式，它可以高效地感知任何宽高比和高分辨率的图像，并在多个基准测试中优于其他模型。

Mar, 2024

PG-Video-LLaVA：像素定位大型视频 - 语言模型

Video-LLaVA 是第一个具有像素级定位能力且通过将音频转写为文本来丰富视频上下文理解的大型多模态模型，在视频中能够根据用户指令对对象进行时空定位，并在生成和问答任务中取得优异结果。

Nov, 2023

PixelLM：使用大型多模型进行像素推理

通过引入 PixelLM，一种高效且有效的大规模多模态模型，该论文解决了对涉及多个开放世界目标的图像推理任务生成像素级掩码的挑战，并在多个基准测试中表现出色，证实了各个组成部分的有效性。

Dec, 2023

OLIVE：物体级别的上下文视觉嵌入

通过在上下文中引入视觉对象向量，我们提出了一种新的方法来引导大型语言模型，从而实现可控的对象级推理，消除了融合冗长图像区块特征的必要性，显著加速了训练。此外，我们还提出了使用对象表示进行区域级检索的方法，便于快速适应新对象而无需额外训练。我们的实验证明，我们的方法在参考对象分类和字幕生成性能上达到了竞争力，并提供了零样本泛化和对视觉上具有挑战性的情境的稳健性。

Jun, 2024

VCoder: 用于多模态大型语言模型的多用途视觉编码器

人类具有视觉感知的出色技能，近期多模态大型语言模型（MLLM）在视觉与语言任务上取得了令人印象深刻的性能，但在识别或计数图像中的实体方面存在一些问题。为了改善多模态 LLM 在感知和推理方面的准确性，我们提出使用 VCoder 作为多模态 LLM 的感知工具，该工具能够通过接收分割或深度图等感知方式来提升多模态 LLM 的感知能力。此外，我们利用 COCO 图像和现成的视觉感知模型输出来创建 COST 数据集，用于训练和评估 MLLM 在对象感知任务上的表现。最后，我们提供了大量的实验证据，证明了 VCoder 在对象级感知能力上相比其他多模态 LLM（包括 GPT-4V）的改进。我们公开发布了我们的数据集、代码和模型，以促进相关研究。

Dec, 2023

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024