MoVQA：一项用于长篇电影理解的多功能问答基准

Dec, 2023

MoVQA：一项用于长篇电影理解的多功能问答基准

MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie Understanding

Hongjie Zhang, Yi Liu, Lu Dong, Yifei Huang, Zhen-Hua Ling...

TL;DR为了解决当前长篇视频理解数据集的局限性，研究引入了 MoVQA 数据集和基准评估，以评估多模态系统对多级时间长度的多样化认知能力，同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析，各种方法在处理视频和线索长度不断增加时性能显著下降，基准方法有所改进，但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角，并激励针对长篇视频理解研究的启发性工作。

Abstract

While several long-form videoqa datasets have been introduced, the length of both videos used to curate questions and sub-clips of clues leveraged to answer those questions have not yet reached the criteria for genuine long-form video understanding. Moreover, their QAs are unduly narro

long-form videoqa datasets genuine long-form video understanding movqa multimodal question-answering long-form video understanding research

发现论文，激发创造

CinePile：一种长视频问答数据集和基准

创新的方法使用人工生成的原始数据，结合 LLMS，构建了一个包含 305,000 个多项选择题的全面数据集 CinePile，涵盖视觉和多模态方面，包括对时间的理解、人物 - 对象交互的理解以及场景内事件或动作的推理。同时，还对最近的基于视频的 LLMs 进行了评估，发现即使是最先进的视频中心的 LLMs 在这些任务中也明显落后于人类的表现，突显了视频理解的复杂性和挑战。

May, 2024

电影问答：通过问题回答理解电影故事

MovieQA 数据集旨在评估从视频和文本中自动理解故事。该数据集包含大量关于 408 部电影的 14,944 个问题，是多种信息源的独特组合 —— 视频剪辑，情节，字幕，脚本和 DVS 等。研究人员对其进行了统计和方法分析，可扩展为现有 QA 技术，以展示具有这种开放式语义的问答是困难的。

Dec, 2015

WorldQA：通过长链推理在视频中实现多模态世界知识

多模态信息和知识对我们理解复杂动态的世界至关重要。本文介绍了一个名为 WorldQA 的视频理解数据集，旨在推动多模态世界模型的发展，并通过引入多种观点挑战模型的能力。通过 WorldRetriever，介绍了一种将专家知识综合整理为连贯推理链条的方法，以便准确回答 WorldQA 的问题。研究还发现了多个关键见解，其中包括模型的推理和理解能力的进一步发展的必要性。希望 WorldQA、方法学以及这些见解可以为多模态世界模型的未来发展做出贡献。

May, 2024

编码和控制长篇视频问答的全球语义

通过引入状态空间层（SSL）到多模态转换器，有效整合视频的全局语义，以提高长格式视频问答（videoQA）的性能，并通过引入跨模态组合一致性（C^3）目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA 和 MAD-QA，分别包含长达 17.5 分钟和 1.9 小时的视频，对长格式视频 QA 能力进行严格评估，实验结果表明我们的框架在这些新的和现有数据集上具有优势。

May, 2024

迈向长型视频理解

本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构，针对大规模数据集进行长型视频理解任务的研究，并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果，同时在 AVA 数据集上也优于可比较的最新研究成果。

Jun, 2021

电影聊天 +: 针对长视频问答的问题感知稀疏记忆

基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器，通过特殊设计的记忆机制，无需额外的可训练时序模块，使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频，提出了 MovieChat，实现了长视频理解的最新性能，并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。

Apr, 2024

一种用于长视频问答的简单 LLM 框架

我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

MovieLLM：使用 AI 生成的影片增强长视频理解能力

MovieLLM 提出了一种新颖的框架，利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉，从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题，显著提高了多模态模型对复杂视频叙事的理解能力，克服了现有数据集的限制。

Mar, 2024

太多的帧，不全是有用的：长篇视频问答的高效策略

长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余，我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。

Jun, 2024

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023