SOK-Bench：具有对齐的开放世界知识的情境视频推理基准

CVPRMay, 2024

SOK-Bench：具有对齐的开放世界知识的情境视频推理基准

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge

Andong Wang, Bo Wu, Sunli Chen, Zhenfang Chen, Haotian Guan...

TL;DR通过从真实世界的视觉环境和场景中学习常识推理，可以迈向先进的人工智能；然而，现有的视频推理基准仍然不足，因为它们主要设计用于事实推理或定位推理，很少涉及到现实世界的更广泛的知识。我们的工作旨在深入研究推理评估，尤其是在动态的、开放的和结构化的上下文知识中；我们提出了一个新的基准测试（SOK-Bench），包含 44K 个问题和 10K 个以视频为示例的情境，带有实例级别的注释。推理过程要求理解和应用情境知识和一般知识进行问题解决。为了创建这样的数据集，我们提出了一种自动且可扩展的生成方法，通过指导 LLMs 和 MLLMs 的组合来生成问题 - 答案对、知识图谱和合理性。具体来说，我们首先从视频中提取可观察到的情境实体、关系和过程，用于情境知识，然后扩展到超出可见内容的开放世界知识。通过多次对话进行任务生成，并通过我们设计的自我提示和演示进行纠正和改进。有了明确的情境事实和隐含的常识知识，我们生成相关的问题 - 答案对和推理过程，并最后通过人工审查进行质量保证。我们评估了最新的主流大视觉语言模型在基准测试上，并得出了一些有见地的结论。详情请参阅我们在 www.bobbywu.com/SOKBench 上的基准测试。

Abstract

Learning commonsense reasoning from visual contexts and scenes in real-world is a crucial step toward advanced artificial intelligence. However, existing →

commonsense reasoning visual contexts video reasoning benchmarks knowledge graphs situated facts

发现论文，激发创造

STAR：一个真实世界视频中情境推理的基准测试

通过对真实世界的视频进行情境抽象和逻辑基础问题回答，本文介绍了一种评估情境推理能力的新基准，称为 Situated Reasoning in Real-World Videos (STAR Benchmark)。该基准通过与人类动作或互动相关的真实世界视频构建，涵盖了相互作用、序列、预测和可行性等四种类型的问题。研究表明，各种现有的视频推理模型都在这一具有挑战性的情境推理任务上遇到了困难，因此我们进一步提出了一种诊断性神经符号模型，用于解决这一基准所面临的挑战。

May, 2024

A-OKVQA: 利用世界知识的视觉问答基准

介绍了 A-OKVQA 数据集，它包含了约 25000 个多样化的问题，需要广泛的常识和世界知识才能回答，相对于现有的基于知识的 VQA 数据集，这些问题通常不能通过简单地查询知识库来回答，而是需要对图像中所描绘的场景进行某种形式的常识推理，该数据集对几种最先进的视觉语言模型进行了基础性能测试。

Jun, 2022

基于知识路线的视觉问答推理：深度表示嵌入的挑战

提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集，通过控制程序来选择自然场景图和外部知识库中的三元组，强制进行多步推理，并平衡答案分布，以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。

Dec, 2020

SQA3D: 3D 场景中的位置问答

提出了一个新的任务来评估具有情境理解能力的代理人的场景理解：三维情境中的位置问答（SQA3D）。在一个三维场景中，该任务要求被测试代理人首先理解其所处的情境，然后通过对其周围环境进行推理，并在该情境下回答一个问题。建立了一个具有 6.8k 个唯一情境和 33.4k 个问题的数据集，检查了一种智能代理人的推理能力的广泛谱系，包括空间关系理解和常识理解、导航和多跳推理。SQA3D 对当前特别是 3D 推理模型提出了重大挑战。评估各种最先进的方法，并发现最佳方法只达到了 47.20% 的总体得分，而业余人类参与者则可以达到 90.06% 的得分。我们相信 SQA3D 可以促进具有更强的情境理解和推理能力的未来体系结构 AI 研究。

Oct, 2022

OK-VQA：需要外部知识的视觉问答基准

本文提出了名为 OK-VQA 的基于知识的视觉问答基准，要求使用外部知识资源来回答问题，该任务是多样的、困难的和大型的，与以前的基于知识的 VQA 数据集相比具有更高的难度。

May, 2019

语言模型中的空间推理评估重新构架：定性推理的现实世界模拟基准

我们提出了一个新的基准评估语言模型中的定性空间推理，该基准建立在逼真的三维仿真数据上，提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性，发现它们在多跳空间推理和解释混合视角描述方面存在困难，并指出了未来改进的方向。

May, 2024

SpartQA：面向空间推理的文本问答基准

本文提出了一个自然语言文本中空间推理的问答基准，其中包含更现实的空间现象，并且挑战最先进的语言模型。我们提出了一种远距离监督方法来改善这个任务。具体来说，我们设计语法和推理规则来自动生成视觉场景的空间描述和相应的问答配对。实验证明，进一步预训练语言模型对这些自动生成的数据显著提高了语言模型对空间理解的能力，从而有助于更好地解决两个外部数据集，即 bAbI 和 boolQ。我们希望这项工作能够推动更复杂的文本空间推理模型的研究。

Apr, 2021

SituatedGen: 融合地理和时间背景的生成常识推理

研究了通识常识推理中的文本生成任务，提出了一种面向具体地理和时间背景下的对比句子生成的数据集及评价模型，并实验证明现有最先进的语言生成模型在推理的通识常识上仍然远远落后于人类表现。

Jun, 2023

超越语言：从图片中学习常识进行推理

本文提出了一种从图像中学习常识的新方法，利用双模态序列到序列模型进行场景布局生成任务，并在通感问题回答和代词消解领域实验中证明了新方法的有效性。

Oct, 2020

CLEVR-POC：部分可观察环境下的推理密集型视觉问答

CLEVR-POC 是一个基于部分可观察环境下的逻辑约束的推理密集型视觉问答基准，通过集成 GPT-4 大型语言模型、视觉感知网络和形式逻辑推理器，展示了在可用且至关重要的环境特定背景知识下实现卓越性能的神经符号模型。

Mar, 2024