CVPRMar, 2023

多视角图像中的三维概念学习和推理

TL;DR本文提出了一个新的大规模 3D 多视图视觉问答基准(3DMV-VQA),介绍了一种基于神经场,2D 预训练的视觉语言模型和神经推理运算符的 3D 概念学习与推理(3D-CLR)框架,并评估了各种最先进的模型,发现它们都表现不佳,提出了从多视图图像中推断出世界的紧凑 3D 表示,并在此基础上执行推理的原则方法,对挑战进行了深入分析并指出了潜在的未来方向。