走向面向事件的长视频理解

Jun, 2024

Towards Event-oriented Long Video Understanding

Yifan Du, Kun Zhou, Yuqi Huo, Yifan Li, Wayne Xin Zhao...

TL;DR通过引入基于现有数据集和人类注释的面向事件的长视频理解基准测试集 Event-Bench 以及使用合并的、事件密集型视频指令来增强视频 MLLMs 的低成本方法 VIM，本研究表明 GPT-4o 模型超过了最佳开源模型 41.42％，在 Event-Bench 上表现出 53.33 的整体准确率，优于最先进的开源模型和 GPT-4V。

Abstract

With the rapid development of video multimodal large language models (MLLMs), numerous benchmarks have been proposed to assess their video understanding capability. However, due to the lack of rich events in the videos, these datasets may suffer from the short-cut bias that the answers

video multimodal large language models event-oriented long video understanding benchmark video instruction merging event-intensive data video event understanding ability

发现论文，激发创造

MMBench-Video：一种用于整体视频理解的长形多镜头基准

通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现，该评估基准充分考虑视频内容，并充分评估模型的时间理解能力，从而为改进大规模视觉语言模型的评估提供了有价值的资源，促进了视频理解领域的进展。

Jun, 2024

LVBench：极长视频理解基准

多模态大型语言模型的最新进展在短视频（通常不超过一分钟）的理解方面取得了显著的提升，并相应产生了多个评估数据集。然而，这些进展还不足以满足现实世界应用的需求，如长期决策的具身智能、深入的电影评论和讨论，以及现场体育评论，这些都需要对数小时的长视频进行理解。为了弥补这一差距，我们介绍了专门设计用于长视频理解的基准测试集 LVBench。我们的数据集包括来源于公共的视频，囊括了一组多样化的任务，旨在进行长视频理解和信息抽取。LVBench 旨在挑战多模态模型展示长期记忆和扩展理解能力。我们进行了大量的评估，结果显示当前的多模态模型在这些具有挑战性的长视频理解任务上表现不佳。通过 LVBench，我们旨在推动更先进的模型的发展，以应对长视频理解的复杂性。我们的数据和代码在以下链接公开可用：this https URL

Jun, 2024

Video-MME: 多模式语言模型在视频分析中的首个综合评估基准

在这篇论文中，我们介绍了 Video-MME，这是第一个全方位的、多模式评估基准测试，用于评估 MLLMs 在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种 MLLMs，并发现商业模型 Gemini 1.5 Pro 的性能最佳，明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。

May, 2024

基于事件理解的视频数据集综述

通过调查 105 个需要事件理解能力的视频数据集，我们考虑它们对视频中鲁棒事件理解研究的贡献，并评估在这一研究领域中提出的视频事件提取任务，提出了基于调查结果的数据集策划和任务构建建议，特别强调视频事件的时间特性和视觉内容的歧义性。

Jun, 2024

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具包

视频型大型语言模型（Video-LLM）的评估系统是本文提出的主题，通过建立全面的基准测试系统，评估多种任务下的 Video-LLM 能力水平，揭示当前模型在理解和分析真实世界视频方面与人类的差距，提供有价值的研究方向。

Nov, 2023

MVBench：全面多模式视频理解基准测试

通过引入全面的多模式视频理解基准 (MVBench)，该研究提出了一种新的静态到动态方法，将静态任务转化为动态任务，评估多模式大型语言模型 (MLLMs) 的时间理解能力，并且开发了一种强大的视频 MLLM 基准模型 VideoChat2，检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。

Nov, 2023

VIM：用于视觉嵌入式指令跟随的多模态大语言模型探测

我们介绍了 VISUAL EMBEDDED INSTRUCTION (VIM)，这是一个新的框架，旨在评估多模态大语言模型 (MLLMs) 在视觉指令跟随能力方面的表现。通过将指令嵌入到视觉场景中，VIM 对 MLLMs 提出挑战，对指令跟随需要强大的视觉解释能力。我们将 VIM 应用于不同的基准测试，包括 VQAv2、MME、MM-Vet 和 RefCOCO 系列，并通过三个不同的上下文学习设置：零次尝试、一次尝试和对应尝试，探索不同的 MLLMs。我们观察到，开源的 MLLMs 与 GPT-4V 之间存在显著的性能差异，这意味着它们在视觉指令理解方面的熟练程度还不够好。我们的结果突出了提高 MLLMs 在指令跟随方面能力的有希望方向。我们的目标是通过 VIM 作为一个有用的规范来推动该领域的最新技术进展和推动进一步的发展。

Nov, 2023

MovieLLM：使用 AI 生成的影片增强长视频理解能力

MovieLLM 提出了一种新颖的框架，利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉，从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题，显著提高了多模态模型对复杂视频叙事的理解能力，克服了现有数据集的限制。

Mar, 2024

InfiniBench：用于非常长视频理解的大规模多模态模型综合基准测试

理解长视频的困难和挑战，现有的基准测试主要关注较短的视频片段。为了弥补这一差距，我们引入了 InfiniBench，这是一个全面的、针对非常长视频理解的基准测试，它具有最长的视频持续时间、最大数量的问答对以及多样化的问题类型。通过对现有的大型多模态模型进行评估，我们发现这个基准测试存在着重大挑战。希望这个基准测试能够促进多模态模型社区对长视频和人类级别理解的研究。

Jun, 2024