Oct, 2024

TVBench:重新设计视频-语言评估

TL;DR本研究针对现有视频-语言基准存在的关键问题,如缺乏时间推理能力和过度依赖文本信息,提出了TVBench这一开放源代码的视频多项选择问答基准。我们的研究表明,TVBench要求模型具备较高的时间理解能力,而大部分最新的视频-语言模型在此基准上的表现接近随机水平,只有Gemini-Pro和Tarsier显著优于这一基线。