阿尔忒弥斯：迈向复杂视频中的指代理解

Jun, 2024

阿尔忒弥斯：迈向复杂视频中的指代理解

Artemis: Towards Referential Understanding in Complex Videos

Jihao Qiu, Yuan Zhang, Xi Tang, Lingxi Xie, Tianren Ma...

TL;DR基于视频的指代理解一直是多模态大型语言模型的一个挑战，本文提出了 Artemis，一个将视频指代理解提升到更精细层次的模型。通过提取紧凑、目标特定的视频特征，Artemis 能够根据视频中的自然语言问题和感兴趣目标的边界框完成整个视频的描述。通过设计高效的三阶段训练过程，并在新建的 VideoRef45K 数据集上进行训练，实验结果从定量和定性上都显示出良好的性能。此外，实验还展示了该模型能够与视频对准和文本摘要工具集成，以理解更复杂的场景。

Abstract

videos carry rich visual information including object description, action, interaction, etc., but the existing multimodal large language models (MLLMs) fell short in referential understanding scenarios such as vi

videos referential understanding artemis video-based referring video features

发现论文，激发创造

Vamos: 视频理解的多功能行为模型

在研究中，我们提出了一种基于大型语言模型的学习框架，使用视频中提取的动作标签和自由形式的描述作为输入，证明了基于文本的视频表示在语言模型时代具有竞争力的表现，并在多个基准测试中取得了最先进的性能。

Nov, 2023

Elysium：透过 MLLM 探索视频中的物体层次感知

通过在大型视频数据集上进行大规模预训练，我们提出了一种全新的多模态大型语言模型（MLLM），名为 Elysium，该模型可以在视频中进行物体级任务，而无需任何其他插件或专家模型。

Mar, 2024

RTQ：基于图文模型重新思考视频语言理解

我们提出了一种名为 RTQ（Refine，Temporal model 和 Query）的新型框架，同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战，这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是，即使在无视频语言预训练的情况下，我们的模型也表现出色，并且结果与或优于最先进的预训练方法。

Dec, 2023

LASER：语义视频表示的神经符号学习

本研究提出了一种基于逻辑规格说明的神经符号方法 LASER，通过其可有效地训练低级感知模型以提取符合所需高级规格说明的细粒度视频表示，不仅可以学习细粒度的视频语义，而且还可以优于现有基准在下游任务中表现得更好。

Apr, 2023

探索视觉检索模型中的组合和语义理解

对视频检索模型在对象和属性、动作以及语义等组成部分的理解进行系统研究并在标准基准数据集上进行实验，发现对象和属性组成部分在视频理解上发挥更重要的作用，且使用预训练的图像 - 文本表示（如 CLIP）的视频检索模型具有更好的语义和组成理解能力。

Jun, 2023

通过冻结大型语言模型实现零样本视频问答

本研究提出一种简单而有效的 Retrieving-to-Answer 框架，通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本，再与问题一起使用大型语言模型产生答案，可以在多个 VideoQA 基准测试中达到较高水平，并且无需跨模态微调。

Jun, 2023

走向全面的语言 - 视频表示：语言模型增强的 MSR-Video 到文本数据集

通过自动增强语言 - 视频数据集和多方位视频字幕生成方法，提高语言 - 视频表示能力，并通过多模态检索模型验证其有效性。

Jun, 2024

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

ChatVideo: 基于 Tracklet 的多模式通用视频理解系统

本文提出了一种基于轨迹为中心的多模态视频理解原型系统，使用各种视频基础模型（ViFMs）注释其特性，存储在数据库中，并通过数据库管理器与用户交互，以解决各种视频相关问题。

Apr, 2023