Jul, 2024

LongVideoBench:长时上下文交错视频语言理解的基准

TL;DR本研究解决了当前缺乏公共基准以评估大型多模态模型在处理长视频语言输入方面的不足。我们提出了LongVideoBench,这是一个涵盖多种主题的包含长达一小时的视频及其字幕的问题回答基准,重点在于准确检索与推理多模态信息。研究发现,LongVideoBench对先进模型提出了显著挑战,使其成为评估未来长上下文多模态模型的宝贵工具。