ICLROct, 2022

SQA3D: 3D 场景中的位置问答

TL;DR提出了一个新的任务来评估具有情境理解能力的代理人的场景理解:三维情境中的位置问答(SQA3D)。在一个三维场景中,该任务要求被测试代理人首先理解其所处的情境,然后通过对其周围环境进行推理,并在该情境下回答一个问题。建立了一个具有 6.8k 个唯一情境和 33.4k 个问题的数据集,检查了一种智能代理人的推理能力的广泛谱系,包括空间关系理解和常识理解、导航和多跳推理。SQA3D 对当前特别是 3D 推理模型提出了重大挑战。评估各种最先进的方法,并发现最佳方法只达到了 47.20% 的总体得分,而业余人类参与者则可以达到 90.06% 的得分。我们相信 SQA3D 可以促进具有更强的情境理解和推理能力的未来体系结构 AI 研究。