Mar, 2023
多视角图像中的三维概念学习和推理
3D Concept Learning and Reasoning from Multi-View Images
TL;DR本文提出了一个新的大规模3D多视图视觉问答基准(3DMV-VQA),介绍了一种基于神经场,2D预训练的视觉语言模型和神经推理运算符的3D概念学习与推理(3D-CLR)框架,并评估了各种最先进的模型,发现它们都表现不佳,提出了从多视图图像中推断出世界的紧凑3D表示,并在此基础上执行推理的原则方法,对挑战进行了深入分析并指出了潜在的未来方向。