迈向长型视频理解

CVPRJun, 2021

Towards Long-Form Video Understanding

Chao-Yuan Wu, Philipp Krähenbühl

TL;DR本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构，针对大规模数据集进行长型视频理解任务的研究，并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果，同时在 AVA 数据集上也优于可比较的最新研究成果。

Abstract

Our world offers a never-ending stream of visual stimuli, yet today's vision systems only accurately recognize patterns within a few seconds. These systems understand the present, but fail to contextualize it in past or future events. In this paper, we study →

long-form video understanding object-centric transformer-based video recognition architecture large-scale datasets evaluation protocols visual stimuli

发现论文，激发创造

长期特征库用于详细视频理解

本文介绍了一种使用长期特征库的方法，用于增强现有的视频模型，将传统视野仅在 2-5 秒短片内的限制打破，实现了在 AVA、EPIC-Kitchens、Charades 这三个数据集上领先水平的效果。

Dec, 2018

神经符号化视频搜索

使用视觉语言模型进行语义理解，通过状态机和时间逻辑进行长期演变的事件推理，提高了复杂事件识别的 F1 得分。

Mar, 2024

VideoAgent: 基于大型语言模型的长视频理解

利用一个新型的基于代理的系统，以长篇视频理解为挑战，通过交互性推理和规划来处理长时间的多模式序列，同时使用大型语言模型作为中央代理来识别和编译关键信息以回答问题，视觉语言基础模型用于翻译和检索视觉信息。在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中，VideoAgent 的零样本准确率分别达到了 54.1% 和 71.3%，仅使用平均 8.4 和 8.2 帧。这些结果证明了我们方法在效果和效率上优于当前技术水平，突显了基于代理的方法在提升长篇视频理解方面的潜力。

Mar, 2024

通过剧本进行零样本长片视频理解

MM-Screenplayer 是一种先进的视频理解系统，具备多模态感知能力，可以将任何视频转换为文本剧本表示形式。与以往的故事叙述方法不同，我们将视频内容以场景为基本单位进行组织，而不仅仅是视觉连续的镜头。此外，我们开发了一种 “回溯” 策略来重新评估和验证不确定信息，特别针对断点模式。MM-Screenplayer 在 CVPR'2024 Long-form Video Understanding（LOVEU）Track 1 挑战中取得了最高分，全球准确率为 87.5％，断点准确率为 68.8％。

Jun, 2024

一个多模态语言模型中理解长视频的方法

利用多模态视频理解框架，在长视频和细粒度动作识别基准测试中展示了最前沿的性能表现。

Mar, 2024

针对深度视频理解的查询感知长视频定位和关系判别

本文介绍了一种基于查询的长视频定位和关系判别方法，利用图像语言预训练模型来选择与查询相关的帧，免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置，并且经过充分的实验证明其效果和鲁棒性。

Oct, 2023

MoVQA：一项用于长篇电影理解的多功能问答基准

为了解决当前长篇视频理解数据集的局限性，研究引入了 MoVQA 数据集和基准评估，以评估多模态系统对多级时间长度的多样化认知能力，同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析，各种方法在处理视频和线索长度不断增加时性能显著下降，基准方法有所改进，但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角，并激励针对长篇视频理解研究的启发性工作。

Dec, 2023

使用状态空间视频模型进行长视频片段分类

提出了一种结合自我关注和 S4 层优点的高效长范围视频模型，具有复杂的长范围时空依赖性，比传统的全自注意模型快 2.63 倍，占用 8 倍更少的 GPU 内存，并在视频分类等任务中取得了最先进的结果。

Apr, 2022

DrVideo: 基于文档检索的长视频理解

我们提出了 DrVideo，它是一个基于文档检索的系统，用于长视频理解。我们的关键思想是将长视频理解问题转化为长文档理解任务，以有效利用大型语言模型的能力。通过将长视频转化为基于文本的长文档来检索关键帧并增强这些帧的信息，然后采用基于代理的迭代循环不断搜索缺失的信息、增强相关数据，并在收集足够的与问题相关的信息后以思维链的方式提供最终预测。大量的实验证实了我们方法的有效性。DrVideo 在长视频基准测试上的准确性优于现有的最先进方法，在 EgoSchema 基准测试上提高了 3.8％的准确性，在 MovieChat-1K break 模式上提高了 17.9％，在 MovieChat-1K 全球模式上提高了 38.0％，在 LLama-Vid QA 数据集上提高了 30.2％（超过 60 分钟）。

Jun, 2024

编码和控制长篇视频问答的全球语义

通过引入状态空间层（SSL）到多模态转换器，有效整合视频的全局语义，以提高长格式视频问答（videoQA）的性能，并通过引入跨模态组合一致性（C^3）目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA 和 MAD-QA，分别包含长达 17.5 分钟和 1.9 小时的视频，对长格式视频 QA 能力进行严格评估，实验结果表明我们的框架在这些新的和现有数据集上具有优势。

May, 2024