基于时序定位的细粒度视频理解大型语言模型

Oct, 2024

基于时序定位的细粒度视频理解大型语言模型

Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models

Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou...

TL;DR本研究针对视频大型语言模型（Video-LLMs）在细粒度时序定位方面的不足，提出了Grounded-VideoLLM这一新模型。通过引入额外的时序编码流和特定时间知识的离散时序token，该模型在多阶段训练中有效提升了细粒度视频理解的能力，展现出在时序句子定位、密集视频描述和视频问答等任务中的卓越表现，具有广泛的视频理解应用潜力。

Abstract

Video Large Language Models (Video-LLMs) have demonstrated remarkable capabilities in coarse-grained Video Understanding, however, they struggle with fine-grained →

发现论文，激发创造

面向时序视频定位的预训练语言模型参数高效集成

探讨了在Temporal Video Grounding (TVG)任务中利用预训练语言模型 (PLM) 的效果，结合现有方法使用不同适配器降低额外参数的影响，结果表明适配器能够在保证性能的情况下，大大减少计算成本，并在三个挑战性的数据集上发现，通过对PLMs进行微调，TVG模型可以极大地受益于PLM。

Sep, 2022

通过分离空间 - 时间建模学习视频问答的细粒度视觉理解

该论文提出了一种新的视频-语言模型：去耦合的空间-时间编码器，通过将图像编码器中的空间模型独立于时间进行编码，将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频-语言模型学习视频QA中的时间关系以达到更好的视觉理解。

Oct, 2022

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为VideoLLM的新框架，它利用了自然语言处理（NLP）预训练LLMs的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的LLM中。在实验中，作者评估了VideoLLM在多个任务上的表现，证明了LLMs的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

VTimeLLM: 赋能LLM捕捉视频片段

该研究提出了VTimeLLM，一种新型的视频理解模型，通过采用三阶段的训练策略，在细粒度的视频时刻理解和时间边界推理方面取得显著性能优势，能够有效地在视频理解任务中超越现有的Video LLMs模型。

Nov, 2023

LLM4VG：大型语言模型对视频定位的评估

近年来，研究人员试图调查LLM在处理视频方面的能力，并提出了几种视频LLM模型。然而，LLM在处理视频对齐（VG）方面的能力仍然不清楚，也没有在文献中进行探索。为了填补这一空白，本文提出了LLM4VG基准测试，对不同的LLM在视频对齐任务上的性能进行系统评估。基于我们提出的LLM4VG，我们设计了大量实验，检查了两组视频LLM模型在视频对齐上的表现：（i）基于文本-视频对训练的视频LLM（标记为VidLLM），以及（ii）与预训练的视觉描述模型（如视频/图像字幕模型）结合的LLM。我们提出了整合VG指令和来自不同类型生成器的描述的方法，包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于VQA的生成器。我们还对各种VidLLM进行了全面比较，并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论：（i）现有的VidLLM离实现令人满意的视频对齐性能还有很长的路要走，需要进一步微调这些模型以包含更多的与时间相关的视频任务；（ii）LLM和视觉模型的组合显示出初步的视频对齐能力，通过采用更可靠的模型和进一步的提示指导，这种能力具有可观的改进潜力。

Dec, 2023

基于多模态信息的时间句子定位在长视频中的基础调度

通过使用多模态信息，我们提出了一种用于处理长视频中的Temporal Sentence Grounding任务的Grounding-Prompter方法，通过引导LLM进行TSG，提高了推理能力和理解TSG任务的性能。

Dec, 2023

Momentor：利用细粒度时间推理推进视频大型语言模型

提出了Momentor，一种能够完成细粒度时态理解任务的Video-LLM，并通过Moment-10M数据集的训练，使其在细粒度理解和定位方面表现出色。

Feb, 2024

HawkEye: 训练以视频为基础的文本语言模型

我们提出了HawkEye，这是第一个完全以文本形式进行时间视频定位的视频-文本LLM，并构建了InternVid-G，这是一个具有分段级字幕和负跨度的大规模视频-文本语料库，我们引入了两个新的时间感知型训练目标，以及一种粗粒度的视频片段表示方法，这使得HawkEye在时间视频定位方面表现更好，同时在其他视频-文本任务上与现有视频-文本LLM相当，验证了其卓越的视频-文本多模态理解能力。

Mar, 2024

VTG-LLM：将时间戳知识整合到视频LLMs中以增强视频时间定位

基于VTG任务，本研究首先介绍了VTG-IT-120K这一高质量的综合指导调整数据集，其涵盖了时刻检索、密集视频字幕生成、视频摘要和视频亮点检测等VTG任务；其次，我们提出了一个特别设计的用于VTG任务的视频LLM模型，VTG-LLM，该模型能够有效地将时间戳知识与视觉标记结合起来，并且引入了一种轻量级、高性能的基于槽位的标记压缩方法，以便更好地采样更多的视频帧。全面的实验证实了VTG-LLM在各种VTG任务中相较于其他视频LLM方法的卓越性能。

May, 2024

无训练视频时间定位的基于大规模预训练模型的方法

本研究解决了现有视频时间定位模型依赖特定数据集进行训练并普遍缺乏泛化能力的问题。提出的无训练视频时间定位方法通过利用大规模预训练模型的能力，分析查询文本中的多个子事件及其时间关系，使得该方法在零-shot视频时间定位任务上表现优越，并在跨数据集和OOD情境下展现出更好的泛化能力。

Aug, 2024