RoScenes：道路感知的大规模多视角三维数据集

May, 2024

RoScenes：道路感知的大规模多视角三维数据集

RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception

Xiaosu Zhu, Hualian Sheng, Sijia Cai, Bing Deng, Shaopeng Yang...

TL;DR在 RoScenes 中介绍了最大的多视角路边感知数据集，旨在为更具挑战性的交通场景的视觉中心 Bird's Eye View (BEV) 方法的发展提供参考。RoScenes 的亮点包括显着大的感知区域、完整的场景覆盖和拥挤的交通。通过 BEV-to-3D 联合注释流水线，我们以高效的方式收集了大量数据，达到了令人惊讶的 2113 万个 3D 注释。此外，我们还针对 RoScenes 上当前的 BEV 方法进行了全面的研究，考察了效果和效率。在大范围感知区域和场景间传感器布局变化的情况下，现有方法的性能未达到预期。因此，我们提出了 RoBEV，其结合了特征引导的位置嵌入，以实现有效的 2D-3D 特征分配。在验证集上，我们的方法在不增加额外计算负担的情况下，大幅领先于最先进方法。我们的数据集和开发工具包将在 https://github.com/xiaosu-zhu/RoScenes 上提供。

Abstract

We introduce roscenes, the largest multi-view roadside perception dataset, which aims to shed light on the development of vision-centric bird's e

roscenes roadside perception dataset bird's eye view 3d annotations robev

发现论文，激发创造

面向基于视觉的道路边缘三维物体检测的场景泛化

该研究论文提出了一种名为 SGV3D 的创新道路边缘 3D 物体检测方案，通过背景抑制模块（BSM）减少视觉中心流程中的背景过拟合问题，并利用半监督数据生成流程（SSDG）利用新场景中的未标记图像生成具有不同摄像机姿态的多样化实例前景，从而提高了在新场景中的检测准确性。

Jan, 2024

Rope3D：自主驾驶与单目三维物体检测任务的路边感知数据集

本文介绍了第一个用于道路侧面感知任务的高多样性 Rope3D 3D 数据集，其中包括超过 1.5M 3D 物体，同时提出利用几何约束来解决各种传感器和视角引起的固有模糊，并针对现有的前视单眼 3D 目标检测方法进行了改进。

Mar, 2022

Cityscapes 3D: 面向 9 自由度车辆检测的数据集和基准

该研究提出一种基于单目 RGB 图像的三维车辆检测方法，为此创建了 Cityscapes 3D 数据集，包含了所有类型车辆的三维标注信息，使得与基于 lidar 的方法相比具有更高效率和更大范围的标注信息。此外，研究将 2D 实例分割与 3D 包围盒成对提供，以便多任务学习。这对自动驾驶技术有着很重要的意义。

Jun, 2020

RCooper: 适用于路边合作感知的真实世界大规模数据集

道路边缘感知越来越受到重视，通过道路合作感知可以实现对交通区域的全面了解；然而，现有的道路边缘感知方法只关注单一基础设施传感器系统，无法覆盖交通区域的全面感知，因此需要道路合作感知来实现对受限交通区域的实际感知。本研究提供了第一个真实世界的大规模道路合作感知数据集，包括检测和跟踪，证明了道路合作感知的有效性，并展示了进一步研究的方向。

Mar, 2024

RoadBEV：鸟瞰视角下的道路表面重建

本研究提出了两种简单而有效的模型（RoadBEV-mono 和 RoadBEV-stereo），分别使用单目和立体图像估计道路高程，在 Bird's-Eye-View 感知中实现对道路的可靠和准确重建。经实验证明，RoadBEV-mono 和 RoadBEV-stereo 的高程误差分别为 1.83cm 和 0.56cm，在单目图像的基础上，估计性能提高了 50％，这些模型在自动驾驶中具有实际应用的潜力，并为基于视觉的 Bird's-Eye-View 感知提供了有价值的参考。

Apr, 2024

Occ-BEV: 通过三维场景重建实现多摄像机联合预训练

通过设计 3D 解码器来利用多视图图像的鸟瞰图（BEV）特征预测 3D 场景的占位情况，为多摄像头智能驾驶提供了一种先进的、可行的和经济高效的解决方案，并取得了显着提升的结果。

May, 2023

自主驾驶中鸟瞰视图感知鲁棒性的基准测试和改进

通过设计评估鲁棒性的 RoboBEV 基准套件，我们评估了包括检测、地图分割、深度估计和占用预测在内的 33 种 BEV 感知模型的性能，并观察到在分布内数据表现良好的模型对分布外挑战具有鲁棒性，同时也强调了预训练和无深度 BEV 变换等策略在提高对分布外数据鲁棒性方面的有效性。

May, 2024

WildScenes：大规模自然环境下的二维和三维语义分割基准

近期在语义场景理解方面的进展主要得益于城市环境中具有语义注释的双模态（相机和激光雷达）数据集的可用性。然而，为了实现自然、非结构化环境下的语义感知应用，包括自然保护、搜救、环境监测和农业自动化，我们也需要具有语义注释的数据集。因此，我们介绍了 WildScenes，一个双模态基准数据集，其中包括自然环境下多个大规模遍历，包括高分辨率 2D 图像和密集 3D 激光雷达点云的语义注释，以及准确的 6 自由度姿态信息。我们的 3D 语义标签通过一种高效的自动化过程得到，该过程将多视角中的人工标注 2D 标签转移到 3D 点云中，从而避免了在 3D 中进行昂贵和耗时的人工注释。我们引入了关于 2D 和 3D 语义分割的基准，并评估了各种最新的深度学习技术，以展示在自然环境中语义分割中的挑战。我们提出了供标准基准和域自适应基准使用的训练 - 验证 - 测试划分，并利用一种自动划分生成技术来确保类别标签分布的平衡。该数据集、评估脚本和预训练模型将在接受之后发布于该 URL。

Dec, 2023

DL3DV-10K：用于基于深度学习的三维视觉的大规模场景数据集

我们提出了一个大规模场景数据集 DL3DV-10K，其中包含了来自 10,510 个视频的 51.2 百万帧，涵盖了有界和无界场景的 65 种感兴趣位置 (POI)，具有不同水平的反射、透明度和照明。我们在 DL3DV-10K 上对最新的 NVS 方法进行了全面的评估，为未来 NVS 研究提供了有价值的见解。此外，我们在从 DL3DV-10K 中学习可泛化 NeRF 的试点研究中取得了令人鼓舞的结果，这证明了大规模场景级数据集对于构建学习三维表示基础模型的必要性。我们的 DL3DV-10K 数据集、评估结果和模型将在此 https URL 上公开获取。

Dec, 2023

nuScenes：自动驾驶的多模态数据集

本文介绍了 nuTonomy 场景数据集，其中包含了自动驾驶车辆所有的传感器：6 个相机，5 个雷达和 1 个激光雷达，每个场景长达 20 秒，并标注了 23 个类别和 8 个属性的三维边界框。同时，定义了新的 3D 检测和跟踪指标，并提供了激光雷达和基于图像的检测和跟踪的基线。

Mar, 2019