Sep, 2023

基于上下文感知的实体定位和开放词汇 3D 场景图

TL;DR我们介绍了一种开放词汇的 3D 场景图(OVSG),它是一个形式化的框架,用于将各种实体,如物体实例、代理和区域,与自由文本查询进行关联。与传统的基于语义的物体定位方法不同,我们的系统支持上下文感知的实体定位,允许查询,如 ' 在厨房桌子上拿起一个杯子 ' 或' 导航到一个有人坐在上面的沙发 '。与现有的 3D 场景图研究相比,OVSG 支持自由文本输入和开放词汇查询。通过使用 ScanNet 数据集和自采集数据集进行的一系列比较实验证明,我们提出的方法明显超越了以前基于语义的定位技术的性能。此外,我们突出了 OVSG 在真实世界的机器人导航和操作实验中的实际应用。