VideoVista: 视频理解和推理的通用基准测试

Jun, 2024

VideoVista: 视频理解和推理的通用基准测试

VideoVista: A Versatile Benchmark for Video Understanding and Reasoning

Yunxin Li, Xinyu Chen, Baotian Hu, Longyue Wang, Haoyuan Shi...

TL;DR通过提供综合评估多模态大型模型在视频理解和推理中的性能的全方位评估基准 VideoVista，本文揭示了视频 LMM 面临的困难、推理能力的不足以及开源视频 LMM 的性能低于 GPT-4o 和 Gemini-1.5 的问题，强调了 VideoVista 在推进精确理解视频和执行精准推理的 LMM 中的关键作用。

Abstract

Despite significant breakthroughs in video analysis driven by the rapid development of large multimodal models (LMMs), there remains a lack of a versatile evaluation benchmark to comprehensively assess these mode

video analysis evaluation benchmark video understanding reasoning tasks videovista

发现论文，激发创造

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具包

视频型大型语言模型（Video-LLM）的评估系统是本文提出的主题，通过建立全面的基准测试系统，评估多种任务下的 Video-LLM 能力水平，揭示当前模型在理解和分析真实世界视频方面与人类的差距，提供有价值的研究方向。

Nov, 2023

MathVista: 在视觉背景中评估基础模型的数学推理

通过创建 MathVista 基准测试，研究提出了对于大型语言模型和大型多模态模型在数学推理和视觉背景下的能力的正式研究，并详细评估了 11 种不同模型的性能，为未来的通用 AI 代理的发展提出了挑战。

Oct, 2023

MMBench-Video：一种用于整体视频理解的长形多镜头基准

通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现，该评估基准充分考虑视频内容，并充分评估模型的时间理解能力，从而为改进大规模视觉语言模型的评估提供了有价值的资源，促进了视频理解领域的进展。

Jun, 2024

感知测试：多模式视频模型的诊断基准

本研究提出了一种新颖的多模式视频基准 ——“感知测试”，以评估预训练的多模态模型（如 Flamingo、BEiT-3 或 GPT-4）的感知和推理能力，并针对记忆、抽象、物理、语义等技能和描述性、解释性、预测性、反事实等类型的推理跨越视频、音频和文本模式，提供了一种全面高效的评估工具，以探究预训练模型的迁移能力。

May, 2023

AutoEval-Video：一个用于评估开放式视频问答中大型视觉语言模型的自动化基准

我们提出了一个新颖且具有挑战性的基准，AutoEval-Video，以全面评估开放式视频问答中的大规模视觉语言模型。

Nov, 2023

VLM-Eval: 视频大型语言模型的通用评估

本文提出了一个统一的评估方法，包括字幕、问答、检索和行动识别等多个视频任务，展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现，同时也展示了一种简单的基准方法 Video-LLaVA，在评估视频 LLMs 时优于现有方法。此外，我们还在实际驾驶场景中评估了视频 LLMs 的有效性，并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法，并帮助扩展更多实际应用场景。

Nov, 2023

视频 - LMMs 的复杂推理与鲁棒性评估套件

通过开发一种复杂视频推理和鲁棒性评估套件（CVRR-ES），该研究综合评估了多种最新 Video-LMMs 模型在 11 个不同的现实世界视频维度上的性能，发现大多数 Video-LMMs 模型在处理复杂视频时，特别是开源模型，在鲁棒性和推理能力方面存在困难。此外，作者还提出了一个训练免费的双步骤上下文提示（DSCP）技术以提升现有 Video-LMMs 模型的性能，并为构建具有先进鲁棒性和推理能力的下一代以人为中心的人工智能系统提供了有价值的见解。

May, 2024

MVBench：全面多模式视频理解基准测试

通过引入全面的多模式视频理解基准 (MVBench)，该研究提出了一种新的静态到动态方法，将静态任务转化为动态任务，评估多模式大型语言模型 (MLLMs) 的时间理解能力，并且开发了一种强大的视频 MLLM 基准模型 VideoChat2，检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。

Nov, 2023

InfiniBench：用于非常长视频理解的大规模多模态模型综合基准测试

理解长视频的困难和挑战，现有的基准测试主要关注较短的视频片段。为了弥补这一差距，我们引入了 InfiniBench，这是一个全面的、针对非常长视频理解的基准测试，它具有最长的视频持续时间、最大数量的问答对以及多样化的问题类型。通过对现有的大型多模态模型进行评估，我们发现这个基准测试存在着重大挑战。希望这个基准测试能够促进多模态模型社区对长视频和人类级别理解的研究。

Jun, 2024

超越原始视频：利用大型多模态模型理解编辑视频

在本文中，我们针对社交媒体的编辑短视频构建了一个视频问答基准（称为 EditVid-QA），涵盖了四个典型的编辑类别，即特效、搞笑、网络迷因和游戏。我们的研究表明，现有的视频 LMMs 在编辑视频上表现较差，存在领域差距。为了提高 LMMs 的泛化能力，我们以 Panda-70M/WebVid 原始视频和小规模的 TikTok/CapCut 编辑视频为基础，收集了所提出基准的训练集，从而提升了在 EditVid-QA 基准上的性能。同时，我们还发现了现有评估协议中的一个严重问题，即使用 GPT-3.5 judge 的 “sorry” 攻击，为了避免这种攻击，我们使用了 GPT-4 judge 和关键词过滤来评估结果。该数据集仅供学术目的发布。

Jun, 2024