DL3DV-10K：用于基于深度学习的三维视觉的大规模场景数据集

Dec, 2023

DL3DV-10K：用于基于深度学习的三维视觉的大规模场景数据集

DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin...

TL;DR我们提出了一个大规模场景数据集 DL3DV-10K，其中包含了来自 10,510 个视频的 51.2 百万帧，涵盖了有界和无界场景的 65 种感兴趣位置 (POI)，具有不同水平的反射、透明度和照明。我们在 DL3DV-10K 上对最新的 NVS 方法进行了全面的评估，为未来 NVS 研究提供了有价值的见解。此外，我们在从 DL3DV-10K 中学习可泛化 NeRF 的试点研究中取得了令人鼓舞的结果，这证明了大规模场景级数据集对于构建学习三维表示基础模型的必要性。我们的 DL3DV-10K 数据集、评估结果和模型将在此 https URL 上公开获取。

Abstract

We have witnessed significant progress in deep learning-based 3d vision, ranging from neural radiance field (NeRF) based 3D representation learning to applications in →

deep learning-based 3d vision neural radiance field novel view synthesis dl3dv-10k dataset benchmark

发现论文，激发创造

MegaScenes：大规模场景级别视图合成

通过从互联网照片收集中创建的大规模场景级数据集，我们分析了现有 NVN 方法的不足，并显著改善了生成一致性，验证了数据集和方法对于生成野外场景的有效性。

Jun, 2024

A*3D 数据集：面向复杂环境的自动驾驶

本文介绍了一份新的挑战性 A*3D 数据集，以满足自动驾驶研究任务在高度多样化的环境中的需求，并采用基于 RGB 图像和 LiDAR 数据的丰富多样的场景、时间和天气情况，其中包括重度遮挡和大量的夜间框架，共包含 39K 帧、7 个类别和 230K 个 3D 对象注释。对 A*3D 数据集进行广泛的 3D 对象检测基准评估，对高密度、白天 / 黑夜等各种属性给出了有趣的见解。

Sep, 2019

RoScenes：道路感知的大规模多视角三维数据集

在 RoScenes 中介绍了最大的多视角路边感知数据集，旨在为更具挑战性的交通场景的视觉中心 Bird's Eye View (BEV) 方法的发展提供参考。RoScenes 的亮点包括显着大的感知区域、完整的场景覆盖和拥挤的交通。通过 BEV-to-3D 联合注释流水线，我们以高效的方式收集了大量数据，达到了令人惊讶的 2113 万个 3D 注释。此外，我们还针对 RoScenes 上当前的 BEV 方法进行了全面的研究，考察了效果和效率。在大范围感知区域和场景间传感器布局变化的情况下，现有方法的性能未达到预期。因此，我们提出了 RoBEV，其结合了特征引导的位置嵌入，以实现有效的 2D-3D 特征分配。在验证集上，我们的方法在不增加额外计算负担的情况下，大幅领先于最先进方法。我们的数据集和开发工具包将在 https://github.com/xiaosu-zhu/RoScenes 上提供。

May, 2024

RTMV：基于光线追踪的多视图合成数据集，用于新视角合成

提供了一种生成大规模综合数据集的方法，并且使用 Sparse Voxel Light Field (SVLF) 方法，该数据集比现有的数据集具有更高的精度，并提供更高效的方法进行训练和评估。

May, 2022

WildScenes：大规模自然环境下的二维和三维语义分割基准

近期在语义场景理解方面的进展主要得益于城市环境中具有语义注释的双模态（相机和激光雷达）数据集的可用性。然而，为了实现自然、非结构化环境下的语义感知应用，包括自然保护、搜救、环境监测和农业自动化，我们也需要具有语义注释的数据集。因此，我们介绍了 WildScenes，一个双模态基准数据集，其中包括自然环境下多个大规模遍历，包括高分辨率 2D 图像和密集 3D 激光雷达点云的语义注释，以及准确的 6 自由度姿态信息。我们的 3D 语义标签通过一种高效的自动化过程得到，该过程将多视角中的人工标注 2D 标签转移到 3D 点云中，从而避免了在 3D 中进行昂贵和耗时的人工注释。我们引入了关于 2D 和 3D 语义分割的基准，并评估了各种最新的深度学习技术，以展示在自然环境中语义分割中的挑战。我们提出了供标准基准和域自适应基准使用的训练 - 验证 - 测试划分，并利用一种自动划分生成技术来确保类别标签分布的平衡。该数据集、评估脚本和预训练模型将在接受之后发布于该 URL。

Dec, 2023

多层级神经场景图用于动态城市环境

我们提出了一种适用于动态城市环境的新颖分解辐射场方法，通过多级神经场景图表示来估计大规模动态区域的辐射场，并采用快速复合光线采样和渲染技术进行有效的训练和渲染，通过新的视图合成基准测试，我们证明了该方法在更多方面的性能优于先前的方法。

Mar, 2024

自动驾驶中感知的可扩展性：Waymo 开放数据集

该研究介绍了一种新的大规模、高质量、多样化的自动驾驶数据集，其中包含了各种城市和郊区地理环境中的 1150 个场景，数据标注为 2D 和 3D 框，而 2D 和 3D 检测和跟踪任务的基线也得到了提供。

Dec, 2019

MVImgNet：一种多视图图像的大规模数据集

提出了一个名为 MVImgNet 的大规模多视图图像数据集，它包含了从 238 个类别的 219,188 个视频中捕获的 650 万个帧。这个数据集被用于在 3D 视觉和 2D 视觉任务中进行了各种实验，包括辐射场重建、多视图立体和视角一致的图像理解。此外，MVImgNet 还产生了一个 3D 物体点云数据集 MVPNet，其中每个点云有类别标签，并且有望在 3D 物体分类方面发挥作用。

Mar, 2023

用于多视角三维重建的现实数据集

本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集，旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注，为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放，包含注释工具和评估基准源代码。

Mar, 2022

SceneNet RGB-D: 500 万逼真合成室内运动轨迹图像及地面真实性数据集

SceneNet RGB-D 提供了室内场景轨迹的大规模真实渲染，为场景理解和几何计算机视觉问题提供像素级完美的标签数据，以及适用于从头开始使用 RGB-D 输入的数据驱动的计算机视觉技术的预训练数据集，并且也提供了探索 3D 场景标注任务的基础。

Dec, 2016