TVBench：重新设计视频-语言评估

Oct, 2024

TVBench: Redesigning Video-Language Evaluation

Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano

TL;DR本研究针对现有视频-语言基准存在的关键问题，如缺乏时间推理能力和过度依赖文本信息，提出了TVBench这一开放源代码的视频多项选择问答基准。我们的研究表明，TVBench要求模型具备较高的时间理解能力，而大部分最新的视频-语言模型在此基准上的表现接近随机水平，只有Gemini-Pro和Tarsier显著优于这一基线。

Abstract

Large language models have demonstrated impressive performance when integrated with vision models even enabling video understanding. However, evaluating these video models presents its own unique challenges, for which several benchmarks have been proposed. In this paper, we show that the currently most used video-language benchmarks can be solved without req

发现论文，激发创造

自我模式：一种用于超长视频语言理解的诊断基准

EgoSchema是一个用于评估现代视觉和语言系统长视频理解能力的非常长的视频问答数据集和基准测试。

Aug, 2023

开放式词汇视频问答：评估视频问答模型的通用性的新基准

提出了Open-vocabulary Video Question Answering（OVQA）基准测试，旨在通过考虑罕见和未知的答案来衡量VideoQA模型的泛化能力，并引入一种改进了模型泛化能力的新型GNN-based soft verbalizer。

Aug, 2023

AutoEval-Video：一个用于评估开放式视频问答中大型视觉语言模型的自动化基准

我们提出了一个新颖且具有挑战性的基准，AutoEval-Video，以全面评估开放式视频问答中的大规模视觉语言模型。

Nov, 2023

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具包

视频型大型语言模型（Video-LLM）的评估系统是本文提出的主题，通过建立全面的基准测试系统，评估多种任务下的 Video-LLM 能力水平，揭示当前模型在理解和分析真实世界视频方面与人类的差距，提供有价值的研究方向。

Nov, 2023

MVBench：全面多模式视频理解基准测试

通过引入全面的多模式视频理解基准(MVBench)，该研究提出了一种新的静态到动态方法，将静态任务转化为动态任务，评估多模式大型语言模型(MLLMs)的时间理解能力，并且开发了一种强大的视频MLLM基准模型VideoChat2，检验结果显示VideoChat2在MVBench上的性能超过其他领先模型15%以上。

Nov, 2023

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

一种用于长视频问答的简单LLM框架

我们介绍了LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧/片段级的视觉描述器和大型语言模型（如GPT-3.5，GPT-4），结合简单且出奇有效的LVQA框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

VideoDistill: 视频问答的语言感知视觉蒸馏

通过受到人类认知和学习模式的启发，我们提出了一种视频问题回答（VideoQA）的框架VideoDistill，该框架在视觉感知和答案生成过程中具有语言感知（即以目标驱动为特征）的行为，通过思考、观察和回答的方式生成与问题相关的显著图像。

Apr, 2024

MMBench-Video：一种用于整体视频理解的长形多镜头基准

通过引入MMBench-Video来评估大规模视觉语言模型在视频理解方面的表现，该评估基准充分考虑视频内容，并充分评估模型的时间理解能力，从而为改进大规模视觉语言模型的评估提供了有价值的资源，促进了视频理解领域的进展。

Jun, 2024

TemporalBench：多模态视频模型的细粒度时间理解基准

本研究针对现有视频基准在细粒度时间理解评估方面的不足，提出了TemporalBench这一新基准。通过约10,000对视频问答对，TemporalBench提供了独特的评估平台，揭示了当前先进模型在时间理解方面与人类之间存在显著差距（约30%）。该基准有助于推动模型在时间推理能力上的改进。

Oct, 2024