Elysium：透过 MLLM 探索视频中的物体层次感知

Mar, 2024

Elysium：透过 MLLM 探索视频中的物体层次感知

Elysium: Exploring Object-level Perception in Videos via MLLM

Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang

TL;DR通过在大型视频数据集上进行大规模预训练，我们提出了一种全新的多模态大型语言模型（MLLM），名为 Elysium，该模型可以在视频中进行物体级任务，而无需任何其他插件或专家模型。

Abstract

multi-modal large language models (MLLMs) have demonstrated their ability to perceive objects in still images, but their application in video-related tasks, such as →

multi-modal large language models object tracking video-related tasks pretraining object-level perception in videos

发现论文，激发创造

MLS-Track：RMOT 中的多层语义交互

通过使用 Unreal Engine 5 构建了一个名为 Refer-UE-City 的全新基准数据集，其中包括了交叉口监控视频中的人和车的外观和行为细节，并提出了一种多层语义引导的多目标追踪框架 MLS-Track，通过引入语义引导模块 (SGM) 和语义相关分支 (SCB) 逐层增强模型与文本之间的交互，实验结果表明该框架具有最先进的性能。

Apr, 2024

RoboLLM: 基于多模态大型语言模型的机器人视觉任务

通过利用多模态大语言模型（MLLMs）的预训练能力，我们介绍了 RoboLLM 框架以应对 ARMBench 挑战中的视觉感知任务，在实际仓库场景下的大规模机器人操作数据集中，RoboLLM 不仅优于现有基线方法，还大幅减少了模型选择和调优的工作量。

Oct, 2023

EmoLLM：多模态情感理解与大型语言模型

通过引入 EmoBench 和 EmoLLM，基于多模态大型语言模型的多模态情感理解性能得到显著提升，提供了更深入、更细致的人类情感理解，为人机交互、心理健康支持和共情人工智能系统等领域的应用开发提供了可能。

Jun, 2024

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

CVPR2024 基础 Few-Shot 目标检测挑战的解决方案

本报告介绍了一种增强的方法来解决基础性少样本物体检测任务，利用视觉语言模型 (VLM) 进行物体检测。为解决 VLM 可能遇到的与目标概念不一致的问题，本研究提出了 VLM + 框架，把多模态大型语言模型 (MM-LLM) 集成到 VLM 中。通过 MM-LLM 生成每个类别的一系列参考表达式，根据 VLM 的预测和给定的注释，选取与每个类别最大 IoU 匹配的最佳参考表达式，并生成伪标签来细调 VLM。该方法在最终测试中达到了 32.56 mAP。

Jun, 2024

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

迈向视觉语言跟踪的统一标记学习

该研究提出了一种简单、灵活且有效的视觉 - 语言（VL）跟踪管道，称为 MMTrack，它将 VL 跟踪视为一个标记生成任务，并通过将语言描述和边界框序列化为一系列离散标记来实现。通过避免多个子任务的学习和手动设计的损失函数，该设计范式极大地降低了 VL 跟踪建模的复杂性，并允许跟踪器使用简单的交叉熵损失作为统一的优化目标。在 TNL2K、LaSOT、LaSOT_ext 和 OTB99-Lang 基准测试上的广泛实验表明，与其他最先进的方法相比，我们的方法取得了令人满意的结果。

Aug, 2023

多模态指导的细粒度视觉感知语言模型优化

提出了 AnyRef 模型，它能从多模态参考中生成像素级的物体感知和自然语言描述，从而提供更大的灵活性，超越了文本和区域提示，无需特定的设计。通过提出的重新聚焦机制，生成的定位输出可以更好地聚焦在参考对象上，从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果，包括多模态参考分割和区域级参考表达生成。

Mar, 2024

MR-MLLM: 多模态理解和视觉感知的相互增强

一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架，通过共享查询融合机制和增强的跨模态集成方法，结合视觉感知和多模态理解，以及混合了感知信息的提示生成机制，提供更准确的多模态解释，在各种多模态理解和视觉感知任务中展现卓越性能。

Jun, 2024

多目标引用跟踪

本文提出了一个新的、通用的指代多目标跟踪（RMOT）任务，其核心思想是利用语言表达作为语义线索来引导多目标跟踪的预测。作者构建了一个基于 KITTI 的可扩展表达基准 Refer-KITTI，并开发了一个基于变压器的 TransRMOT 架构来解决该任务，在线方式取得了令人瞩目的检测性能，并超越了其他对手。

Mar, 2023