PixelLM：使用大型多模型进行像素推理

Dec, 2023

PixelLM：使用大型多模型进行像素推理

PixelLM: Pixel Reasoning with Large Multimodal Model

Zhongwei Ren, Zhicheng Huang, Yunchao Wei, Yao Zhao, Dongmei Fu...

TL;DR通过引入 PixelLM，一种高效且有效的大规模多模态模型，该论文解决了对涉及多个开放世界目标的图像推理任务生成像素级掩码的挑战，并在多个基准测试中表现出色，证实了各个组成部分的有效性。

Abstract

While large multimodal models (LMMs) have achieved remarkable progress, generating pixel-level masks for image reasoning tasks involving multiple open-world targets remains a challenge. To bridge this gap, we introduce

multimodal models pixellm pixel-level reasoning segmentation muse

发现论文，激发创造

LLM-Seg：图像分割与大型语言模型推理的桥梁

通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割，这是一项新颖任务，通过大型语言模型推理来解释和识别隐含的用户意图，从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架，有效地将当前的基础分割模型和 LLM 连接起来，通过掩码提案选择实现。同时，我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明，我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外，我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。

Apr, 2024

多模态指导的细粒度视觉感知语言模型优化

提出了 AnyRef 模型，它能从多模态参考中生成像素级的物体感知和自然语言描述，从而提供更大的灵活性，超越了文本和区域提示，无需特定的设计。通过提出的重新聚焦机制，生成的定位输出可以更好地聚焦在参考对象上，从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果，包括多模态参考分割和区域级参考表达生成。

Mar, 2024

OMG-LLaVA：图像层、对象层、像素层推理和理解的桥梁

提出了一种新颖的 OMG-LLaVA 框架，将强大的像素级视觉理解与推理能力相结合，接受各种视觉和文本提示以实现灵活的用户交互。通过将视觉信息、感知先验和视觉提示整合为 LLM 可以理解用户的文本指令，并基于视觉信息提供文本响应和像素级分割结果。OMG-LLaVA 在一个模型中实现了图像级、对象级和像素级的推理和理解，达到了或超过了多个基准测试的专门方法的性能。

Jun, 2024

PSALM: 基于大型多模型的逐像素分割

PSALM 是基于大型多模态模型（LMM）的强大扩展，用于解决分割任务的挑战，通过引入掩码解码器和精心设计的输入模式来处理各种分割任务，并且能够生成和分类分割掩码，支持多个数据集和任务的联合训练，具有卓越的性能和任务泛化能力，对图像分割领域具有潜力。

Mar, 2024

NExT-Chat：一种聊天、检测和分割的 LMM

我们引入一种名为 pixel2emb 方法的新范式，通过该方法可以在多模态对话中使用不同的位置格式，提高具有有限资源的场景下对象定位的性能，并训练一个名为 NExT-Chat 的多任务大型多模态模型，展示其处理视觉对齐、区域描述和基于对齐的推理的能力。

Nov, 2023

GLaMM: 像素 grounding 大规模多模态模型

GLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型，在图像和文本领域中以不同粒度的方式与模型进行交互，同时通过 GLaMM，还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。

Nov, 2023

强化多模态大语言模型的分割能力

我们扩展了多模态大语言模型（MLLMs）的输出，通过赋予其分割能力，从而使其能够同时输出与图像 - 语言提示相关的语言响应并分割语言提示中复杂问题或查询所关注的区域。我们提出了一种名为 LLaVASeg 的新颖 MLLMs 框架，利用连续思维提示策略指导 MLLMs 对用户查询的目标区域进行分割，从而保持了原始 MLLMs 的对话能力并赋予了 MLLMs 模型强大的推理分割能力。

Mar, 2024

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

Lumen: 开放大型多模态模型的多样视觉能力

大型多模态模型（LMM）是计算机视觉领域的热门研究课题，近期的趋势是进一步拓展和增强 LMM 的感知能力。我们提出了一种名为 Lumen 的新型 LMM 架构，将 LMM 的感知能力学习分解为任务无关和任务特定阶段，在 COCO 检测基准上显著超越现有的基于 LMM 的方法，并展现了对其他视觉任务的无缝可扩展性。

Mar, 2024

超高像素大型多模态模型

高分辨率是大型多模式模型（LMMs）的基础，本论文提出了一种新的框架和优化策略，通过混合适配器从全局视图中提取上下文信息，并引入可学习的查询嵌入来减少图像标记，同时通过相似性选择器选择用户问题的关键标记，实现更好的性能表现。此外，通过交替训练的方式平衡学习全局和局部方面，并引入高要求图像细节的数据集来增强局部压缩层的训练，提出的方法在各项基准测试中表现出优异性能。

Jun, 2024