Momentor：利用细粒度时间推理推进视频大型语言模型

Feb, 2024

Momentor：利用细粒度时间推理推进视频大型语言模型

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

Long Qian, Juncheng Li, Yu Wu, Yaobo Ye, Hao Fei...

TL;DR提出了 Momentor，一种能够完成细粒度时态理解任务的 Video-LLM，并通过 Moment-10M 数据集的训练，使其在细粒度理解和定位方面表现出色。

Abstract

large language models (LLMs) demonstrate remarkable proficiency in comprehending and handling text-based tasks. Many efforts are being made to transfer these attributes to video modality, which are termed video-llms

large language models video-llms momentor fine-grained temporal understanding tasks moment-10m

发现论文，激发创造

VTimeLLM: 赋能 LLM 捕捉视频片段

该研究提出了 VTimeLLM，一种新型的视频理解模型，通过采用三阶段的训练策略，在细粒度的视频时刻理解和时间边界推理方面取得显著性能优势，能够有效地在视频理解任务中超越现有的 Video LLMs 模型。

Nov, 2023

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为 VideoLLM 的新框架，它利用了自然语言处理（NLP）预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的 LLM 中。在实验中，作者评估了 VideoLLM 在多个任务上的表现，证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

基于大型语言模型的上下文增强视频片段检索

通过引入大型语言模型（LLMs）的广泛知识，我们提出了一种大型语言模型引导的时刻检索（LMR）方法，以改善视频上下文表示和跨模态对齐，从而实现准确的目标时刻定位。

May, 2024

使用时间语言定位视频中的瞬间

本文提出了一种新模型，该模型可以明确地推理视频中的不同时间片段，证明了在包括时间语言的短语定位中，时间上下文的重要性，并通过 TEMPO 数据集进行了实验以验证模型可靠性。

Sep, 2018

多模态大型语言模型对视频片段检索的惊人有效性

利用图像 - 文本预训练的多模态大语言模型（MLLMs）进行时刻检索，获得了令人惊讶的有效性，并且在时刻检索和时序动作定位任务上实现了最新的性能。

Jun, 2024

视频语料库中的时刻定位层级多模态编码器

本文提出了一种名为 HAMMER 的 HierArchical Multi-Modal EncodeR 模型，通过在粗略的片段级别和细粒度的帧级别编码视频，从多个子任务中提取不同尺度的信息，从而解决了在未处理和未分段的视频中定位未定义段的挑战。实验结果表明，我们的方法优于以前的方法和强基线，是此任务的新的 state-of-the-art。

Nov, 2020

TempCompass：视频 LLMs 是否真正理解视频？

介绍了 TempCompass 基准测试，该基准测试引入了多样化的时间感知和任务格式，全面评估了 8 种最新的视频大语言模型以及 3 种图像大语言模型，并揭示了这些模型在时间感知方面表现出明显的不足。

Mar, 2024

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

ST-LLM：大型语言模型是有效的时间学习器

通过在 Large Language Models（LLMs）中添加 Spatial-Temporal 序列建模，提高视频理解能力，并通过动态掩蔽策略和全局 - 局部输入模块提升效率和稳定性，从而在 VideoChatGPT-Bench 和 MVBench 上建立了新的最优结果。

Mar, 2024