迈向长型视频理解
本文介绍了一种使用长期特征库的方法,用于增强现有的视频模型,将传统视野仅在 2-5 秒短片内的限制打破,实现了在 AVA、EPIC-Kitchens、Charades 这三个数据集上领先水平的效果。
Dec, 2018
利用一个新型的基于代理的系统,以长篇视频理解为挑战,通过交互性推理和规划来处理长时间的多模式序列,同时使用大型语言模型作为中央代理来识别和编译关键信息以回答问题,视觉语言基础模型用于翻译和检索视觉信息。在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中,VideoAgent 的零样本准确率分别达到了 54.1% 和 71.3%,仅使用平均 8.4 和 8.2 帧。这些结果证明了我们方法在效果和效率上优于当前技术水平,突显了基于代理的方法在提升长篇视频理解方面的潜力。
Mar, 2024
MM-Screenplayer 是一种先进的视频理解系统,具备多模态感知能力,可以将任何视频转换为文本剧本表示形式。与以往的故事叙述方法不同,我们将视频内容以场景为基本单位进行组织,而不仅仅是视觉连续的镜头。此外,我们开发了一种 “回溯” 策略来重新评估和验证不确定信息,特别针对断点模式。MM-Screenplayer 在 CVPR'2024 Long-form Video Understanding(LOVEU)Track 1 挑战中取得了最高分,全球准确率为 87.5%,断点准确率为 68.8%。
Jun, 2024
本文介绍了一种基于查询的长视频定位和关系判别方法,利用图像语言预训练模型来选择与查询相关的帧,免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置,并且经过充分的实验证明其效果和鲁棒性。
Oct, 2023
为了解决当前长篇视频理解数据集的局限性,研究引入了 MoVQA 数据集和基准评估,以评估多模态系统对多级时间长度的多样化认知能力,同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析,各种方法在处理视频和线索长度不断增加时性能显著下降,基准方法有所改进,但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角,并激励针对长篇视频理解研究的启发性工作。
Dec, 2023
提出了一种结合自我关注和 S4 层优点的高效长范围视频模型,具有复杂的长范围时空依赖性,比传统的全自注意模型快 2.63 倍,占用 8 倍更少的 GPU 内存,并在视频分类等任务中取得了最先进的结果。
Apr, 2022
我们提出了 DrVideo,它是一个基于文档检索的系统,用于长视频理解。我们的关键思想是将长视频理解问题转化为长文档理解任务,以有效利用大型语言模型的能力。通过将长视频转化为基于文本的长文档来检索关键帧并增强这些帧的信息,然后采用基于代理的迭代循环不断搜索缺失的信息、增强相关数据,并在收集足够的与问题相关的信息后以思维链的方式提供最终预测。大量的实验证实了我们方法的有效性。DrVideo 在长视频基准测试上的准确性优于现有的最先进方法,在 EgoSchema 基准测试上提高了 3.8%的准确性,在 MovieChat-1K break 模式上提高了 17.9%,在 MovieChat-1K 全球模式上提高了 38.0%,在 LLama-Vid QA 数据集上提高了 30.2%(超过 60 分钟)。
Jun, 2024
通过引入状态空间层(SSL)到多模态转换器,有效整合视频的全局语义,以提高长格式视频问答(videoQA)的性能,并通过引入跨模态组合一致性(C^3)目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA 和 MAD-QA,分别包含长达 17.5 分钟和 1.9 小时的视频,对长格式视频 QA 能力进行严格评估,实验结果表明我们的框架在这些新的和现有数据集上具有优势。
May, 2024