MLVU: 多任务长视频理解的全面基准

Jun, 2024

MLVU: 多任务长视频理解的全面基准

MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding

Junjie Zhou, Yan Shu, Bo Zhao, Boya Wu, Shitao Xiao...

TL;DR为了解决现有视频理解基准测试中存在的问题，本文提出了一个新的基准测试 MLVU（多任务长视频理解基准测试），包括视频长度的灵活扩展、各种视频类型的包含以及多样化的评估任务，通过对最新 MLLMs 的实证研究，揭示了今天的技术在长视频理解方面仍有改进的空间，提出了未来进展中上下文长度、图像理解质量和 LLM 骨干选择等因素发挥关键作用，预期 MLVU 将通过对 MLLMs 进行全面深入的分析，推动长视频理解的研究。

Abstract

The evaluation of long video understanding (LVU) performance poses an important but challenging research problem. Despite previous efforts, the existing video understanding benchmarks are severely constrained by several issues, especially the insufficient lengths of videos, a lack of d

long video understanding mlvu benchmark video genres evaluation tasks

发现论文，激发创造

一个多模态语言模型中理解长视频的方法

利用多模态视频理解框架，在长视频和细粒度动作识别基准测试中展示了最前沿的性能表现。

Mar, 2024

LVBench：极长视频理解基准

多模态大型语言模型的最新进展在短视频（通常不超过一分钟）的理解方面取得了显著的提升，并相应产生了多个评估数据集。然而，这些进展还不足以满足现实世界应用的需求，如长期决策的具身智能、深入的电影评论和讨论，以及现场体育评论，这些都需要对数小时的长视频进行理解。为了弥补这一差距，我们介绍了专门设计用于长视频理解的基准测试集 LVBench。我们的数据集包括来源于公共的视频，囊括了一组多样化的任务，旨在进行长视频理解和信息抽取。LVBench 旨在挑战多模态模型展示长期记忆和扩展理解能力。我们进行了大量的评估，结果显示当前的多模态模型在这些具有挑战性的长视频理解任务上表现不佳。通过 LVBench，我们旨在推动更先进的模型的发展，以应对长视频理解的复杂性。我们的数据和代码在以下链接公开可用：this https URL

Jun, 2024

MMBench-Video：一种用于整体视频理解的长形多镜头基准

通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现，该评估基准充分考虑视频内容，并充分评估模型的时间理解能力，从而为改进大规模视觉语言模型的评估提供了有价值的资源，促进了视频理解领域的进展。

Jun, 2024

MVBench：全面多模式视频理解基准测试

通过引入全面的多模式视频理解基准 (MVBench)，该研究提出了一种新的静态到动态方法，将静态任务转化为动态任务，评估多模式大型语言模型 (MLLMs) 的时间理解能力，并且开发了一种强大的视频 MLLM 基准模型 VideoChat2，检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。

Nov, 2023

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具包

视频型大型语言模型（Video-LLM）的评估系统是本文提出的主题，通过建立全面的基准测试系统，评估多种任务下的 Video-LLM 能力水平，揭示当前模型在理解和分析真实世界视频方面与人类的差距，提供有价值的研究方向。

Nov, 2023

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

VALUE：一个视频和语言理解评估的多任务基准

本研究通过 VALUE 基准测试，探讨了基于多个数据集完成多个任务的视频与语言理解模型，重点考虑来源于多种视频类型，利用通过视频帧和相关字幕来分析视频文本内容，以及学习多任务的视频与语言理解能力，进一步推动视频与语言理解技术的发展。

Jun, 2021

针对深度视频理解的查询感知长视频定位和关系判别

本文介绍了一种基于查询的长视频定位和关系判别方法，利用图像语言预训练模型来选择与查询相关的帧，免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置，并且经过充分的实验证明其效果和鲁棒性。

Oct, 2023

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

VLM-Eval: 视频大型语言模型的通用评估

本文提出了一个统一的评估方法，包括字幕、问答、检索和行动识别等多个视频任务，展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现，同时也展示了一种简单的基准方法 Video-LLaVA，在评估视频 LLMs 时优于现有方法。此外，我们还在实际驾驶场景中评估了视频 LLMs 的有效性，并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法，并帮助扩展更多实际应用场景。

Nov, 2023