Dec, 2019

ScanRefer: 使用自然语言在 RGB-D 扫描中进行 3D 物体定位

TL;DR本研究提出了通过自然语言描述在RGB-D扫描中进行3D对象定位的方法ScanRefer,使用3D对象提取和编码的句子嵌入来学习融合描述符,将语言表达与几何特征进行相关性建模,可以实现目标对象的3D边界框的回归。同时还构建了ScanRefer数据集,包含来自800个ScanNet场景的11,046个对象的51,583个描述。这是第一个通过自然语言直接在3D中执行对象定位的大规模尝试。