CVPRMay, 2024

SOK-Bench:具有对齐的开放世界知识的情境视频推理基准

TL;DR通过从真实世界的视觉环境和场景中学习常识推理,可以迈向先进的人工智能;然而,现有的视频推理基准仍然不足,因为它们主要设计用于事实推理或定位推理,很少涉及到现实世界的更广泛的知识。我们的工作旨在深入研究推理评估,尤其是在动态的、开放的和结构化的上下文知识中;我们提出了一个新的基准测试(SOK-Bench),包含 44K 个问题和 10K 个以视频为示例的情境,带有实例级别的注释。推理过程要求理解和应用情境知识和一般知识进行问题解决。为了创建这样的数据集,我们提出了一种自动且可扩展的生成方法,通过指导 LLMs 和 MLLMs 的组合来生成问题 - 答案对、知识图谱和合理性。具体来说,我们首先从视频中提取可观察到的情境实体、关系和过程,用于情境知识,然后扩展到超出可见内容的开放世界知识。通过多次对话进行任务生成,并通过我们设计的自我提示和演示进行纠正和改进。有了明确的情境事实和隐含的常识知识,我们生成相关的问题 - 答案对和推理过程,并最后通过人工审查进行质量保证。我们评估了最新的主流大视觉语言模型在基准测试上,并得出了一些有见地的结论。详情请参阅我们在 www.bobbywu.com/SOKBench 上的基准测试。