Jun, 2024

短片数据集 (SFD): 故事级视频理解的基准

TL;DR最近的视觉语言模型的进展在很大程度上推动了视频理解。然而,现有的数据集和任务存在显著的局限性。我们提出了一个包含 1,078 个公开可用的业余电影的短片数据集(SFD),它包括广泛的类型和最小的数据泄漏问题。通过多项选择和开放式问题回答的方式,SFD 提供了以长期故事为导向的视频任务。我们的实验证明了长期推理在解决 SFD 任务中的重要性。值得注意的是,我们发现电影剧本中存在强烈的信号,这导致人和视觉语言模型(LLM)的性能相当。我们还展示了当前模型在仅使用视觉数据时的性能明显较低于人类。