Mar, 2024

TOD3Cap: 面向户外场景的三维密集描述

TL;DR室外三维密集字幕生成中存在诸多挑战,如室内和室外场景之间的领域差异、数据匮乏等,本文提出了室外三维密集字幕生成的新任务,并引入使用 BEV 表示的 TOD3Cap 网络来生成物体边界框和丰富的字幕,通过 TOD3Cap 数据集进行评估,结果表明我们的网络在室外场景中能够有效地定位和生成字幕,比基线方法有显著提升(+9.6 [email protected])。