AAAIDec, 2023

Mono3DVG: 单目图像中的三维视觉定位

TL;DR我们介绍了一项新的任务,使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言,我们构建了一个大规模数据集 Mono3DRefer,其中包含具有对应的几何文本描述的 3D 目标,由 ChatGPT 生成并手动改进。为了促进此任务,我们提出了 Mono3DVG-TR,一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器,用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力,解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布:this https URL。