针对深度视频理解的查询感知长视频定位和关系判别

MMOct, 2023

针对深度视频理解的查询感知长视频定位和关系判别

Query-aware Long Video Localization and Relation Discrimination for Deep Video Understanding

Yuanxing Xu, Yuting Wei, Bin Wu

TL;DR本文介绍了一种基于查询的长视频定位和关系判别方法，利用图像语言预训练模型来选择与查询相关的帧，免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置，并且经过充分的实验证明其效果和鲁棒性。

Abstract

The surge in video and social media content underscores the need for a deeper understanding of multimedia data. Most of the existing mature video understanding techniques perform well with short formats and content that requires only shallow understanding, but do not perform well with long format videos that require deep understanding and reasoning. Deep

video understanding deep video long videos multimodal extraction query-aware method

发现论文，激发创造

一个多模态语言模型中理解长视频的方法

利用多模态视频理解框架，在长视频和细粒度动作识别基准测试中展示了最前沿的性能表现。

Mar, 2024

DrVideo: 基于文档检索的长视频理解

我们提出了 DrVideo，它是一个基于文档检索的系统，用于长视频理解。我们的关键思想是将长视频理解问题转化为长文档理解任务，以有效利用大型语言模型的能力。通过将长视频转化为基于文本的长文档来检索关键帧并增强这些帧的信息，然后采用基于代理的迭代循环不断搜索缺失的信息、增强相关数据，并在收集足够的与问题相关的信息后以思维链的方式提供最终预测。大量的实验证实了我们方法的有效性。DrVideo 在长视频基准测试上的准确性优于现有的最先进方法，在 EgoSchema 基准测试上提高了 3.8％的准确性，在 MovieChat-1K break 模式上提高了 17.9％，在 MovieChat-1K 全球模式上提高了 38.0％，在 LLama-Vid QA 数据集上提高了 30.2％（超过 60 分钟）。

Jun, 2024

迈向长型视频理解

本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构，针对大规模数据集进行长型视频理解任务的研究，并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果，同时在 AVA 数据集上也优于可比较的最新研究成果。

Jun, 2021

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

MLVU: 多任务长视频理解的全面基准

为了解决现有视频理解基准测试中存在的问题，本文提出了一个新的基准测试 MLVU（多任务长视频理解基准测试），包括视频长度的灵活扩展、各种视频类型的包含以及多样化的评估任务，通过对最新 MLLMs 的实证研究，揭示了今天的技术在长视频理解方面仍有改进的空间，提出了未来进展中上下文长度、图像理解质量和 LLM 骨干选择等因素发挥关键作用，预期 MLVU 将通过对 MLLMs 进行全面深入的分析，推动长视频理解的研究。

Jun, 2024

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

大规模整体视频理解

本文介绍了一个基于语义分类的大规模 Holistic 视频理解数据集 HVU，它实现了对多标签、多任务视频理解的全面考虑，以及介绍了一种新的综合外观和时间神经网络体系结构 HATNet，本文拓展了视频识别范畴，验证了 Holistic 表示学习在许多实际应用程序中的重要作用。

Apr, 2019

MoVQA：一项用于长篇电影理解的多功能问答基准

为了解决当前长篇视频理解数据集的局限性，研究引入了 MoVQA 数据集和基准评估，以评估多模态系统对多级时间长度的多样化认知能力，同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析，各种方法在处理视频和线索长度不断增加时性能显著下降，基准方法有所改进，但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角，并激励针对长篇视频理解研究的启发性工作。

Dec, 2023

多模态新闻理解与专业标注视频

通过对 ReutersViLNews 数据集进行大规模分析，我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战，并提供了未来解决 ReutersViLNews 数据集的方法。

Jan, 2024

RTQ：基于图文模型重新思考视频语言理解

我们提出了一种名为 RTQ（Refine，Temporal model 和 Query）的新型框架，同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战，这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是，即使在无视频语言预训练的情况下，我们的模型也表现出色，并且结果与或优于最先进的预训练方法。

Dec, 2023