TemporalBench：多模态视频模型的细粒度时间理解基准

Oct, 2024

TemporalBench：多模态视频模型的细粒度时间理解基准

TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang...

TL;DR本研究针对现有视频基准在细粒度时间理解评估方面的不足，提出了TemporalBench这一新基准。通过约10,000对视频问答对，TemporalBench提供了独特的评估平台，揭示了当前先进模型在时间理解方面与人类之间存在显著差距（约30%）。该基准有助于推动模型在时间推理能力上的改进。

Abstract

Understanding fine-grained temporal dynamics is crucial for Multimodal Video comprehension and generation. Due to the lack of fine-grained temporal annotations, existing video benchmarks mostly resemble static image benchmarks and are incompetent at evaluating models for →

发现论文，激发创造

通过分离空间 - 时间建模学习视频问答的细粒度视觉理解

该论文提出了一种新的视频-语言模型：去耦合的空间-时间编码器，通过将图像编码器中的空间模型独立于时间进行编码，将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频-语言模型学习视频QA中的时间关系以达到更好的视觉理解。

Oct, 2022

自我模式：一种用于超长视频语言理解的诊断基准

EgoSchema是一个用于评估现代视觉和语言系统长视频理解能力的非常长的视频问答数据集和基准测试。

Aug, 2023

ATM：视频问答的动作时间建模

通过动作时间建模（ATM），在视频问答（VideoQA）中引入了对因果/时间推理跨帧的问题，并通过重新思考光流的有效性、以行为为中心的对比学习和防止模型在微调阶段给出对洗牌视频的回答来实现了时序推理。实验证明，ATM在多个VideoQA任务的准确性方面优于先前方法，并展示了更好的真实时间推理能力。

Sep, 2023

MVBench：全面多模式视频理解基准测试

通过引入全面的多模式视频理解基准(MVBench)，该研究提出了一种新的静态到动态方法，将静态任务转化为动态任务，评估多模式大型语言模型(MLLMs)的时间理解能力，并且开发了一种强大的视频MLLM基准模型VideoChat2，检验结果显示VideoChat2在MVBench上的性能超过其他领先模型15%以上。

Nov, 2023

TimeChat：长视频理解的时间敏感多模态大型语言模型

该研究提出了TimeChat，一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现：1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器，和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频Q-Former。此外，我们构建了一个调整指令的数据集，包括6个任务和总共12.5万个实例，以进一步提高TimeChat的指令遵循性能。在各种视频理解任务上的实验结果，如密集字幕生成、时间定位和重点检测，展示了TimeChat强大的零样本时态定位和推理能力。例如，在YouCook2上，它在F1评分上提升了9.2，在CIDEr上提升了2.8，在QVHighlights上的HIT@1提升了5.8，在Charades-STA上的R@1 (IoU=0.5)提升了27.5，与业界领先的视频大型语言模型相比，具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。

Dec, 2023

MMBench-Video：一种用于整体视频理解的长形多镜头基准

通过引入MMBench-Video来评估大规模视觉语言模型在视频理解方面的表现，该评估基准充分考虑视频内容，并充分评估模型的时间理解能力，从而为改进大规模视觉语言模型的评估提供了有价值的资源，促进了视频理解领域的进展。

Jun, 2024

InfiniBench：用于非常长视频理解的大规模多模态模型综合基准测试

理解长视频的困难和挑战，现有的基准测试主要关注较短的视频片段。为了弥补这一差距，我们引入了InfiniBench，这是一个全面的、针对非常长视频理解的基准测试，它具有最长的视频持续时间、最大数量的问答对以及多样化的问题类型。通过对现有的大型多模态模型进行评估，我们发现这个基准测试存在着重大挑战。希望这个基准测试能够促进多模态模型社区对长视频和人类级别理解的研究。

Jun, 2024

E.T.基准：迈向开放式事件级视频语言理解

本研究解决了现有视频理解基准缺乏细粒度事件级评估和任务多样性的问题。我们提出了E.T.基准，这是一个大规模的高质量开放式事件级视频理解基准，包含12项任务下的7.3K样本和7K视频，提供全面评估。评估结果表明，现有的先进模型在解决细粒度任务时表现不佳，同时提出的E.T. Chat模型和指令调优数据集在多个场景中显示出优越的性能。

Sep, 2024

从文本到视频的时间推理迁移

本研究解决了视频大语言模型在时间关系推理中存在的困难，发现问题源于底层语言模型对时间概念的理解不足。通过引入文本时间推理迁移（T3），利用现有图像-文本数据集生成多样的时间推理任务，显著提高了模型在时间推理任务上的表现，展示了文本与视频领域间时间推理能力的有效迁移。

Oct, 2024

TVBench：重新设计视频-语言评估

本研究针对现有视频-语言基准存在的关键问题，如缺乏时间推理能力和过度依赖文本信息，提出了TVBench这一开放源代码的视频多项选择问答基准。我们的研究表明，TVBench要求模型具备较高的时间理解能力，而大部分最新的视频-语言模型在此基准上的表现接近随机水平，只有Gemini-Pro和Tarsier显著优于这一基线。

Oct, 2024