Sep, 2023

Multi3DRefer: 文本描述与多个3D对象的关联

TL;DR我们介绍了使用自然语言描述来定位现实世界3D场景中多个对象的任务。我们提出了Multi3DRefer,扩展了ScanRefer数据集和任务,并引入了新的评估指标和基准方法以进一步研究多模态3D场景理解。此外,我们利用CLIP的2D特征和对比学习在线渲染对象提案,构建了更好的基准线,该基准线在ScanRefer基准测试上超越了最新技术。