Dec, 2019

ScanRefer: 使用自然语言在 RGB-D 扫描中进行 3D 物体定位

TL;DR本研究提出了通过自然语言描述在 RGB-D 扫描中进行 3D 对象定位的方法 ScanRefer,使用 3D 对象提取和编码的句子嵌入来学习融合描述符,将语言表达与几何特征进行相关性建模,可以实现目标对象的 3D 边界框的回归。同时还构建了 ScanRefer 数据集,包含来自 800 个 ScanNet 场景的 11,046 个对象的 51,583 个描述。这是第一个通过自然语言直接在 3D 中执行对象定位的大规模尝试。