ScanNet: 室内场景丰富注释的 3D 重建
ScanNet++ 是一个大规模数据集,结合高质量和大众级几何和室内场景的颜色采集。它包括使用高端激光扫描仪以亚毫米的分辨率捕捉的场景,以及来自 DSLR 相机的 3300 万像素注册图像和 iPhone 的 RGB-D 流。该数据集为新视角合成提供了一个新的实际世界基准,不仅包括高质量的 RGB 采集,还包括大众级图像,同时也提供了一个全面涵盖各种模糊语义标注场景的三维语义场景理解基准。目前,ScanNet++ 包含 460 个场景,280,000 张 DSLR 图像和超过 3.7M 个 iPhone 的 RGBD 帧。
Aug, 2023
本文介绍 Matterport3D 数据集,包含 10,800 个全景视图,通过 RGB-D 图片提供了 90 个建筑尺度的场景的表面重建、相机姿态和 2D、3D 语义分割注释等,可用于多种计算机视觉任务,如关键点匹配、视图重叠预测、颜色预测等。
Sep, 2017
SceneNet RGB-D 提供了室内场景轨迹的大规模真实渲染,为场景理解和几何计算机视觉问题提供像素级完美的标签数据,以及适用于从头开始使用 RGB-D 输入的数据驱动的计算机视觉技术的预训练数据集,并且也提供了探索 3D 场景标注任务的基础。
Dec, 2016
本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集,旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注,为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放,包含注释工具和评估基准源代码。
Mar, 2022
该文介绍了一个大规模室内空间数据集,其中包含 2D、2.5D 和 3D 接口的多种相互注册的模态,并具有实例级别的语义和几何注释。该数据集使得可以开发联合和跨模态学习模型,以及可能利用大规模室内空间中存在的规律性的无监督方法。
Feb, 2017
本研究提出了通过自然语言描述在 RGB-D 扫描中进行 3D 对象定位的方法 ScanRefer,使用 3D 对象提取和编码的句子嵌入来学习融合描述符,将语言表达与几何特征进行相关性建模,可以实现目标对象的 3D 边界框的回归。同时还构建了 ScanRefer 数据集,包含来自 800 个 ScanNet 场景的 11,046 个对象的 51,583 个描述。这是第一个通过自然语言直接在 3D 中执行对象定位的大规模尝试。
Dec, 2019
介绍了 ARKitScenes,这是第一个使用 RGB-D 数据集且具有广泛可用深度传感器的室内场景认知数据集,并分析了数据集的有用性,包括用于 3D 对象检测和颜色引导深度上采样。
Nov, 2021
本文研究场景理解问题,通过使用计算机图形学生成合成 3D 场景,以解决手动收集大量数据问题,从而避免了收集数据的麻烦和昂贵成本。通过使用深度数据作为输入仅使用 RGB-D 系统的深度数据,我们在 NYUv2 数据集上的表现相当于最先进的 RGBD 系统,并在 SUN RGB-D 数据集上设置了基准。文章还探讨了生成合成图像或视频数据,以及分析影响性能增益的不同因素。
Nov, 2015
Scan2CAD 是一种数据驱动的方法,可以学习将形状数据库中的 3D CAD 模型对齐到商品 RGB-D 扫描的噪声和不完整几何形状中,其可用于室内场景的三维重建。该方法使用三维卷积神经网络来预测 CAD 模型与其对应扫描对象之间的对应关系,并通过变分能量最小化将 CAD 模型与重构对齐,其在 Scan2CAD 基准测试中表现优异。
Nov, 2018
本文提出新的计算机视觉方法,使 3D 语义分割可以更好地理解具有更多类别和自然分布的真实环境,并在新的扩展基准上测试,使用语言驱动的预训练方法使特征更鲁棒。实验结果表明,我们的方法在提出的基准上始终优于现有技术。
Apr, 2022