Aug, 2019

VideoNavQA: 填补视觉与行为问答之间的差距

TL;DR本文提出了一种基于身体的问答任务,即 Embodied Question Answering,通过放置一个 agent 在 3D 环境中,学习结合场景理解、导航和语言理解等能力,实现在视觉世界中进行复杂推理。为了探索 EQA 系列任务的可行性,我们构建了 VideoNavQA 数据集,评估了各种模型在此数据集上的表现。