STAR：一个真实世界视频中情境推理的基准测试

May, 2024

STAR：一个真实世界视频中情境推理的基准测试

STAR: A Benchmark for Situated Reasoning in Real-World Videos

Bo Wu, Shoubin Yu, Zhenfang Chen, Joshua B Tenenbaum, Chuang Gan

TL;DR通过对真实世界的视频进行情境抽象和逻辑基础问题回答，本文介绍了一种评估情境推理能力的新基准，称为 Situated Reasoning in Real-World Videos (STAR Benchmark)。该基准通过与人类动作或互动相关的真实世界视频构建，涵盖了相互作用、序列、预测和可行性等四种类型的问题。研究表明，各种现有的视频推理模型都在这一具有挑战性的情境推理任务上遇到了困难，因此我们进一步提出了一种诊断性神经符号模型，用于解决这一基准所面临的挑战。

Abstract

Reasoning in the real world is not divorced from situations. How to capture the present knowledge from surrounding situations and perform reasoning accordingly is crucial and challenging for machine intelligence. This paper introduces a new benchmark that evaluates the situated reasoning

situated reasoning real-world videos star benchmark logic-grounded question answering diagnostic neuro-symbolic model

发现论文，激发创造

SOK-Bench：具有对齐的开放世界知识的情境视频推理基准

通过从真实世界的视觉环境和场景中学习常识推理，可以迈向先进的人工智能；然而，现有的视频推理基准仍然不足，因为它们主要设计用于事实推理或定位推理，很少涉及到现实世界的更广泛的知识。我们的工作旨在深入研究推理评估，尤其是在动态的、开放的和结构化的上下文知识中；我们提出了一个新的基准测试（SOK-Bench），包含 44K 个问题和 10K 个以视频为示例的情境，带有实例级别的注释。推理过程要求理解和应用情境知识和一般知识进行问题解决。为了创建这样的数据集，我们提出了一种自动且可扩展的生成方法，通过指导 LLMs 和 MLLMs 的组合来生成问题 - 答案对、知识图谱和合理性。具体来说，我们首先从视频中提取可观察到的情境实体、关系和过程，用于情境知识，然后扩展到超出可见内容的开放世界知识。通过多次对话进行任务生成，并通过我们设计的自我提示和演示进行纠正和改进。有了明确的情境事实和隐含的常识知识，我们生成相关的问题 - 答案对和推理过程，并最后通过人工审查进行质量保证。我们评估了最新的主流大视觉语言模型在基准测试上，并得出了一些有见地的结论。详情请参阅我们在 www.bobbywu.com/SOKBench 上的基准测试。

May, 2024

语言模型中的空间推理评估重新构架：定性推理的现实世界模拟基准

我们提出了一个新的基准评估语言模型中的定性空间推理，该基准建立在逼真的三维仿真数据上，提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性，发现它们在多跳空间推理和解释混合视角描述方面存在困难，并指出了未来改进的方向。

May, 2024

VSTAR：一个基于视频的对话数据集，用于具有场景和主题转换的情境语义理解

本文提出了一个基于 VSTAR 数据集的视频对话理解的基准测试，其中包括场景分割、主题分割和视频对话生成三个基准测试，以验证多模态信息和段落在视频对话理解和生成中的重要性。

May, 2023

SQA3D: 3D 场景中的位置问答

提出了一个新的任务来评估具有情境理解能力的代理人的场景理解：三维情境中的位置问答（SQA3D）。在一个三维场景中，该任务要求被测试代理人首先理解其所处的情境，然后通过对其周围环境进行推理，并在该情境下回答一个问题。建立了一个具有 6.8k 个唯一情境和 33.4k 个问题的数据集，检查了一种智能代理人的推理能力的广泛谱系，包括空间关系理解和常识理解、导航和多跳推理。SQA3D 对当前特别是 3D 推理模型提出了重大挑战。评估各种最先进的方法，并发现最佳方法只达到了 47.20% 的总体得分，而业余人类参与者则可以达到 90.06% 的得分。我们相信 SQA3D 可以促进具有更强的情境理解和推理能力的未来体系结构 AI 研究。

Oct, 2022

STaR: 带着推理进行推理的自举

本文提出了一种名为 Self-Taught Reasoner (STaR) 的技术，该技术利用少量的依据样本和大型没有依据的数据集迭代提高语言模型的理解和应用复杂推理的能力，通过生成推理和反馈微调模型来逐步提升模型的性能，相比于直接预测答案的模型，STaR 在多个数据集上都有显著的性能提升，并与 30 倍大的最先进语言模型的微调性能相媲美，为模型通过自我生成的推理学习提供了可能。

Mar, 2022

SpartQA：面向空间推理的文本问答基准

本文提出了一个自然语言文本中空间推理的问答基准，其中包含更现实的空间现象，并且挑战最先进的语言模型。我们提出了一种远距离监督方法来改善这个任务。具体来说，我们设计语法和推理规则来自动生成视觉场景的空间描述和相应的问答配对。实验证明，进一步预训练语言模型对这些自动生成的数据显著提高了语言模型对空间理解的能力，从而有助于更好地解决两个外部数据集，即 bAbI 和 boolQ。我们希望这项工作能够推动更复杂的文本空间推理模型的研究。

Apr, 2021

三维视觉语言推理中的情境认知的重要性

SIG3D 是一个端到端的基于情境的 3D 视觉语言推理模型，该模型在情境估计和问题回答方面的性能明显优于现有模型，尤其是在情境估计准确率方面提升超过 30%。

Jun, 2024

STREET: 一个多任务结构化推理和解释基准

本文介绍 STREET，一个统一的多任务、多领域自然语言推理和解释基准。该基准要求模型不仅能回答问题，还能产生步骤化的结构化解释，并描述问题中的前提是如何用于产生能证明某个答案正确性的中间结论。作者使用 GPT-3 和 T5 等常见语言模型进行了广泛的评估，发现这些模型在产生这些结构化推理步骤方面仍远落后于人类表现。作者相信，这项工作将为社区提供一种更好的方法，以在自然语言的多步推理和解释方面进行更好的系统培训和测试。

Feb, 2023

超越显而易见：基于生活景象的语言模型推理能力评估 (LSR-Benchmark)

本文介绍了 Life Scapes Reasoning Benchmark (LSR-Benchmark) 数据集，它是一个针对真实情境推理的新颖数据集，旨在弥补人工神经网络在日常背景下推理能力的差距，并测试了利用 gpt3.5-turbo 和 instruction fine-tuned llama 模型的推理性能。实验结果表明人类在理解日常生活方面仍然优于这些模型，这表明机器学习模型在理解日常人类生活方面仍然面临着挑战。

Jul, 2023

视频问答的分层面向对象时空推理

通过提出一种基于对象导向推理的动态交互视频场景中的视觉物体关系、行为和事件的深度神经网络模型（HOSTR），能够在多个视频问题回答基准数据集中取得最新的最高成就并显示出其可靠性、可解释性和高效性。

Jun, 2021