May, 2024

Video-MME: 多模式语言模型在视频分析中的首个综合评估基准

TL;DR在这篇论文中,我们介绍了 Video-MME,这是第一个全方位的、多模式评估基准测试,用于评估 MLLMs 在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种 MLLMs,并发现商业模型 Gemini 1.5 Pro 的性能最佳,明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。