Jan, 2025

MMVU:测量专家级多学科视频理解

TL;DR本研究提出了MMVU,这是一个全面的专家级多学科基准,用于评估基础模型在视频理解方面的表现。该基准通过专家标注的问题,推动模型超越基本的视觉感知,以应对特定领域的复杂推理需求。尽管目前最先进的模型在表现上有所提升,但仍未能达到人类专家的水平,研究提供了未来发展的有效见解。