May, 2024

STAR:一个真实世界视频中情境推理的基准测试

TL;DR通过对真实世界的视频进行情境抽象和逻辑基础问题回答,本文介绍了一种评估情境推理能力的新基准,称为 Situated Reasoning in Real-World Videos (STAR Benchmark)。该基准通过与人类动作或互动相关的真实世界视频构建,涵盖了相互作用、序列、预测和可行性等四种类型的问题。研究表明,各种现有的视频推理模型都在这一具有挑战性的情境推理任务上遇到了困难,因此我们进一步提出了一种诊断性神经符号模型,用于解决这一基准所面临的挑战。