Jun, 2024
MLVU: 多任务长视频理解的全面基准
MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding
Junjie Zhou, Yan Shu, Bo Zhao, Boya Wu, Shitao Xiao...
TL;DR为了解决现有视频理解基准测试中存在的问题,本文提出了一个新的基准测试 MLVU(多任务长视频理解基准测试),包括视频长度的灵活扩展、各种视频类型的包含以及多样化的评估任务,通过对最新 MLLMs 的实证研究,揭示了今天的技术在长视频理解方面仍有改进的空间,提出了未来进展中上下文长度、图像理解质量和 LLM 骨干选择等因素发挥关键作用,预期 MLVU 将通过对 MLLMs 进行全面深入的分析,推动长视频理解的研究。