Jun, 2024

LVBench:极长视频理解基准

TL;DR多模态大型语言模型的最新进展在短视频(通常不超过一分钟)的理解方面取得了显著的提升,并相应产生了多个评估数据集。然而,这些进展还不足以满足现实世界应用的需求,如长期决策的具身智能、深入的电影评论和讨论,以及现场体育评论,这些都需要对数小时的长视频进行理解。为了弥补这一差距,我们介绍了专门设计用于长视频理解的基准测试集 LVBench。我们的数据集包括来源于公共的视频,囊括了一组多样化的任务,旨在进行长视频理解和信息抽取。LVBench 旨在挑战多模态模型展示长期记忆和扩展理解能力。我们进行了大量的评估,结果显示当前的多模态模型在这些具有挑战性的长视频理解任务上表现不佳。通过 LVBench,我们旨在推动更先进的模型的发展,以应对长视频理解的复杂性。我们的数据和代码在以下链接公开可用:this https URL