ARKitScenes: 使用移动 RGB-D 数据的 3D 室内场景理解多样化真实世界数据集
本论文提出 ARKitTrack 数据集,包含 300 个 RGB-D 序列,455 个目标,总计 229.7K 个视频帧和 123.9K 像素级目标遮罩,并提供每个帧的相机内参和相机姿态信息。此外,研究人员还提出了一种新的跨模态 3D 几何一般方法,该方法将 RGB 特征与俯视图表示相结合,以更好地探索交叉模态 3D 几何信息。实验证明,ARKitTrack 数据集可以显著促进 RGB-D 跟踪,并且所提出的基线方法比当前技术水平更具优势。
Mar, 2023
本文研究场景理解问题,通过使用计算机图形学生成合成 3D 场景,以解决手动收集大量数据问题,从而避免了收集数据的麻烦和昂贵成本。通过使用深度数据作为输入仅使用 RGB-D 系统的深度数据,我们在 NYUv2 数据集上的表现相当于最先进的 RGBD 系统,并在 SUN RGB-D 数据集上设置了基准。文章还探讨了生成合成图像或视频数据,以及分析影响性能增益的不同因素。
Nov, 2015
本文介绍 Matterport3D 数据集,包含 10,800 个全景视图,通过 RGB-D 图片提供了 90 个建筑尺度的场景的表面重建、相机姿态和 2D、3D 语义分割注释等,可用于多种计算机视觉任务,如关键点匹配、视图重叠预测、颜色预测等。
Sep, 2017
本文介绍了 ScanNet 数据集的构建,该数据集包含 2.5M 的视图和 1513 个场景,提供了 3D 摄像机姿势、表面重构和语义分割等信息,并表明使用此数据集可以在 3D 场景理解任务中实现最先进的性能。
Feb, 2017
本文探讨了与 RGBD 数据集有关的八个类别,并提出了一些关于其未来的方向,这有助于研究人员找到适合他们需求的数据,并考虑哪些数据集在推动计算机视觉方向上取得了成功和原因。
Apr, 2016
ScanNet++ 是一个大规模数据集,结合高质量和大众级几何和室内场景的颜色采集。它包括使用高端激光扫描仪以亚毫米的分辨率捕捉的场景,以及来自 DSLR 相机的 3300 万像素注册图像和 iPhone 的 RGB-D 流。该数据集为新视角合成提供了一个新的实际世界基准,不仅包括高质量的 RGB 采集,还包括大众级图像,同时也提供了一个全面涵盖各种模糊语义标注场景的三维语义场景理解基准。目前,ScanNet++ 包含 460 个场景,280,000 张 DSLR 图像和超过 3.7M 个 iPhone 的 RGBD 帧。
Aug, 2023
本文提出了一种自适应景观识别方法,该方法使用 RGB 和深度图像之间的自监督转换,以解决多模态数据集之间的领域转移问题,并证明其在不同相机采集的数据之间具有很强的泛化能力。
Mar, 2021
本文系统地总结介绍了低成本稳定的 2.5/3D 视觉感知器件在计算机视觉领域中如何应用于室内环境中的视觉场景理解,包括数据表示,核心技术,场景理解任务,性能评价以及面临的挑战。
Mar, 2018
SceneNet RGB-D 提供了室内场景轨迹的大规模真实渲染,为场景理解和几何计算机视觉问题提供像素级完美的标签数据,以及适用于从头开始使用 RGB-D 输入的数据驱动的计算机视觉技术的预训练数据集,并且也提供了探索 3D 场景标注任务的基础。
Dec, 2016
该文介绍了一个大规模室内空间数据集,其中包含 2D、2.5D 和 3D 接口的多种相互注册的模态,并具有实例级别的语义和几何注释。该数据集使得可以开发联合和跨模态学习模型,以及可能利用大规模室内空间中存在的规律性的无监督方法。
Feb, 2017