Apr, 2023

WildRefer: 基于多模态视觉数据和自然语言的大规模动态场景中的 3D 物体定位

TL;DR本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的 3D 视觉定位任务的方法,并且通过利用图像的外观特征、点云中的位置和几何特征以及连续输入帧中的动态特征,匹配语言中的语义特征。我们提出了两个新的数据集,STRefer 和 LifeRefer,这些数据集对于野外 3D 视觉定位的研究具有重要意义,并且有着提升自动驾驶和服务机器人发展的巨大潜力。广泛的比较和消融研究证明,我们的方法在两个提出的数据集上实现了最先进的性能。