Nov, 2023

VLM-Eval: 视频大型语言模型的通用评估

TL;DR本文提出了一个统一的评估方法,包括字幕、问答、检索和行动识别等多个视频任务,展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现,同时也展示了一种简单的基准方法 Video-LLaVA,在评估视频 LLMs 时优于现有方法。此外,我们还在实际驾驶场景中评估了视频 LLMs 的有效性,并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法,并帮助扩展更多实际应用场景。