Oct, 2023

关于部件、姿势和遮挡的 3D 感知视觉问答

TL;DR通过引入 3D 感知的视觉问答(3D-aware VQA)任务以及相应的数据集 Super-CLEVR-3D 和模型 PO3D-VQA,本论文探索了在视觉场景的三维结构上进行合成推理的挑战性问题,实验证明 PO3D-VQA 模型在 3D 感知的视觉问答上取得了显著进展,但与 2D 视觉问答基准相比仍存在明显的性能差距,显示出 3D 感知的视觉问答依然是一个重要的开放研究领域。