Jun, 2024

MLVU: 多任务长视频理解的全面基准

TL;DR为了解决现有视频理解基准测试中存在的问题,本文提出了一个新的基准测试 MLVU(多任务长视频理解基准测试),包括视频长度的灵活扩展、各种视频类型的包含以及多样化的评估任务,通过对最新 MLLMs 的实证研究,揭示了今天的技术在长视频理解方面仍有改进的空间,提出了未来进展中上下文长度、图像理解质量和 LLM 骨干选择等因素发挥关键作用,预期 MLVU 将通过对 MLLMs 进行全面深入的分析,推动长视频理解的研究。