室内场景理解中的 2D-3D - 语义数据联合
本文介绍 Matterport3D 数据集,包含 10,800 个全景视图,通过 RGB-D 图片提供了 90 个建筑尺度的场景的表面重建、相机姿态和 2D、3D 语义分割注释等,可用于多种计算机视觉任务,如关键点匹配、视图重叠预测、颜色预测等。
Sep, 2017
本文介绍了 ScanNet 数据集的构建,该数据集包含 2.5M 的视图和 1513 个场景,提供了 3D 摄像机姿势、表面重构和语义分割等信息,并表明使用此数据集可以在 3D 场景理解任务中实现最先进的性能。
Feb, 2017
本文介绍了一个由三个英国城市中 7.6 平方公里的城市景观组成的大规模城市照相测量点云数据集,其中每个 3D 点都被标记为 13 个语义类别之一,并通过基于现有算法的综合分析来识别了几个关键问题。
Sep, 2020
本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集,旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注,为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放,包含注释工具和评估基准源代码。
Mar, 2022
介绍了规模、质量和多样性都高于以往数据集的 HM3DSEM 数据集,该数据集使用纹理信息进行像素精度的对象边界注释,使用该数据集训练的策略在 Object Goal Navigation 任务上表现优异,引入该数据集还带来了 Habitat ObjectNav Challenge 参与者数量的增加。
Oct, 2022
本研究提供了一份可扩展性强、真实感更强、规模更大、变异性更强、且在训练和评估深度学习方法、基准测试同时定位和映射(SLAM)方面有更广泛用途的数据集,以支持计算机视觉领域的研究。我们使用数百万个专业室内设计和制作级家具资产进行高分辨率和高帧率视频序列渲染,并支持各种摄像头类型以及惯性测量。同时,我们展示了稀疏和密集 SLAM 算法的基准测试结果。
Sep, 2018
本文介绍 SensatUrban 数据集,由近三十亿个带有精细语义注释的点云数据集组成,用于评估最先进的分割算法性能,并分析了限制城市规模点云理解的关键挑战。
Jan, 2022
本文介绍了一个新的 3D 点云分类基准数据集,其中包含超过 40 亿个手动标记的点,用于数据密集型的(深度)学习方法。使用深度卷积神经网络(CNNs)作为工作马的初始提交已经显示出相对于现有技术具有显著的性能改进。我们提供了基线方法描述和通过我们的在线系统提交方法之间的比较。我们希望 Semantic3D.net 能够为 3D 点云标注中的深度学习方法铺平道路。
Apr, 2017
本文介绍了一种新的人工合成数据集 Structured3D,为各种结构化三维建模任务提供大规模照片级真实感图像和丰富的三维结构注释,此外并利用该数据集与真实图像来训练深度神经网络,显著提高了房间布局估计性能。
Aug, 2019
近期在语义场景理解方面的进展主要得益于城市环境中具有语义注释的双模态(相机和激光雷达)数据集的可用性。然而,为了实现自然、非结构化环境下的语义感知应用,包括自然保护、搜救、环境监测和农业自动化,我们也需要具有语义注释的数据集。因此,我们介绍了 WildScenes,一个双模态基准数据集,其中包括自然环境下多个大规模遍历,包括高分辨率 2D 图像和密集 3D 激光雷达点云的语义注释,以及准确的 6 自由度姿态信息。我们的 3D 语义标签通过一种高效的自动化过程得到,该过程将多视角中的人工标注 2D 标签转移到 3D 点云中,从而避免了在 3D 中进行昂贵和耗时的人工注释。我们引入了关于 2D 和 3D 语义分割的基准,并评估了各种最新的深度学习技术,以展示在自然环境中语义分割中的挑战。我们提出了供标准基准和域自适应基准使用的训练 - 验证 - 测试划分,并利用一种自动划分生成技术来确保类别标签分布的平衡。该数据集、评估脚本和预训练模型将在接受之后发布于该 URL。
Dec, 2023