May, 2024

RoScenes:道路感知的大规模多视角三维数据集

TL;DR在 RoScenes 中介绍了最大的多视角路边感知数据集,旨在为更具挑战性的交通场景的视觉中心 Bird's Eye View (BEV) 方法的发展提供参考。RoScenes 的亮点包括显着大的感知区域、完整的场景覆盖和拥挤的交通。通过 BEV-to-3D 联合注释流水线,我们以高效的方式收集了大量数据,达到了令人惊讶的 2113 万个 3D 注释。此外,我们还针对 RoScenes 上当前的 BEV 方法进行了全面的研究,考察了效果和效率。在大范围感知区域和场景间传感器布局变化的情况下,现有方法的性能未达到预期。因此,我们提出了 RoBEV,其结合了特征引导的位置嵌入,以实现有效的 2D-3D 特征分配。在验证集上,我们的方法在不增加额外计算负担的情况下,大幅领先于最先进方法。我们的数据集和开发工具包将在 https://github.com/xiaosu-zhu/RoScenes 上提供。