ScanNet: 室内场景丰富注释的 3D 重建

Feb, 2017

ScanNet: 室内场景丰富注释的 3D 重建

ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes

Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser...

TL;DR本文介绍了 ScanNet 数据集的构建，该数据集包含 2.5M 的视图和 1513 个场景，提供了 3D 摄像机姿势、表面重构和语义分割等信息，并表明使用此数据集可以在 3D 场景理解任务中实现最先进的性能。

Abstract

A key requirement for leveraging supervised deep learning methods is the availability of large, labeled datasets. Unfortunately, in the context of RGB-D scene understanding, very little data is available -- current datasets cover a small range of scene views and have limited semantic a

deep learning rgb-d scene understanding dataset scannet semantic annotation

发现论文，激发创造

ScanNet++: 一个高保真度的三维室内场景数据集

ScanNet++ 是一个大规模数据集，结合高质量和大众级几何和室内场景的颜色采集。它包括使用高端激光扫描仪以亚毫米的分辨率捕捉的场景，以及来自 DSLR 相机的 3300 万像素注册图像和 iPhone 的 RGB-D 流。该数据集为新视角合成提供了一个新的实际世界基准，不仅包括高质量的 RGB 采集，还包括大众级图像，同时也提供了一个全面涵盖各种模糊语义标注场景的三维语义场景理解基准。目前，ScanNet++ 包含 460 个场景，280,000 张 DSLR 图像和超过 3.7M 个 iPhone 的 RGBD 帧。

Aug, 2023

Matterport3D: 室内环境下 RGB-D 数据的学习

本文介绍 Matterport3D 数据集，包含 10,800 个全景视图，通过 RGB-D 图片提供了 90 个建筑尺度的场景的表面重建、相机姿态和 2D、3D 语义分割注释等，可用于多种计算机视觉任务，如关键点匹配、视图重叠预测、颜色预测等。

Sep, 2017

SceneNet RGB-D: 500 万逼真合成室内运动轨迹图像及地面真实性数据集

SceneNet RGB-D 提供了室内场景轨迹的大规模真实渲染，为场景理解和几何计算机视觉问题提供像素级完美的标签数据，以及适用于从头开始使用 RGB-D 输入的数据驱动的计算机视觉技术的预训练数据集，并且也提供了探索 3D 场景标注任务的基础。

Dec, 2016

用于多视角三维重建的现实数据集

本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集，旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注，为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放，包含注释工具和评估基准源代码。

Mar, 2022

室内场景理解中的 2D-3D - 语义数据联合

该文介绍了一个大规模室内空间数据集，其中包含 2D、2.5D 和 3D 接口的多种相互注册的模态，并具有实例级别的语义和几何注释。该数据集使得可以开发联合和跨模态学习模型，以及可能利用大规模室内空间中存在的规律性的无监督方法。

Feb, 2017

ScanRefer: 使用自然语言在 RGB-D 扫描中进行 3D 物体定位

本研究提出了通过自然语言描述在 RGB-D 扫描中进行 3D 对象定位的方法 ScanRefer，使用 3D 对象提取和编码的句子嵌入来学习融合描述符，将语言表达与几何特征进行相关性建模，可以实现目标对象的 3D 边界框的回归。同时还构建了 ScanRefer 数据集，包含来自 800 个 ScanNet 场景的 11,046 个对象的 51,583 个描述。这是第一个通过自然语言直接在 3D 中执行对象定位的大规模尝试。

Dec, 2019

ARKitScenes: 使用移动 RGB-D 数据的 3D 室内场景理解多样化真实世界数据集

介绍了 ARKitScenes，这是第一个使用 RGB-D 数据集且具有广泛可用深度传感器的室内场景认知数据集，并分析了数据集的有用性，包括用于 3D 对象检测和颜色引导深度上采样。

Nov, 2021

使用合成数据理解现实世界室内场景的 SceneNet

本文研究场景理解问题，通过使用计算机图形学生成合成 3D 场景，以解决手动收集大量数据问题，从而避免了收集数据的麻烦和昂贵成本。通过使用深度数据作为输入仅使用 RGB-D 系统的深度数据，我们在 NYUv2 数据集上的表现相当于最先进的 RGBD 系统，并在 SUN RGB-D 数据集上设置了基准。文章还探讨了生成合成图像或视频数据，以及分析影响性能增益的不同因素。

Nov, 2015

Scan2CAD：RGB-D 扫描中的 CAD 模型对齐学习

Scan2CAD 是一种数据驱动的方法，可以学习将形状数据库中的 3D CAD 模型对齐到商品 RGB-D 扫描的噪声和不完整几何形状中，其可用于室内场景的三维重建。该方法使用三维卷积神经网络来预测 CAD 模型与其对应扫描对象之间的对应关系，并通过变分能量最小化将 CAD 模型与重构对齐，其在 Scan2CAD 基准测试中表现优异。

Nov, 2018

基于语言的室内野外 3D 语义分割

本文提出新的计算机视觉方法，使 3D 语义分割可以更好地理解具有更多类别和自然分布的真实环境，并在新的扩展基准上测试，使用语言驱动的预训练方法使特征更鲁棒。实验结果表明，我们的方法在提出的基准上始终优于现有技术。

Apr, 2022