Oct, 2024

迈向3D视觉的基础模型:我们离目标有多近?

TL;DR本研究针对当前3D视觉模型与人类之间的差距,构建了一个新的基准,以评估3D视觉理解的能力与不足。研究发现,尽管当前的视觉语言模型表现不佳,专用模型在几何扰动下缺乏鲁棒性,但神经网络在三维视觉机制上更接近人类视觉。这一发现为未来3D视觉基础模型的发展提供了重要的指导。