SceneNet RGB-D: 500 万逼真合成室内运动轨迹图像及地面真实性数据集
本研究提供了一份可扩展性强、真实感更强、规模更大、变异性更强、且在训练和评估深度学习方法、基准测试同时定位和映射(SLAM)方面有更广泛用途的数据集,以支持计算机视觉领域的研究。我们使用数百万个专业室内设计和制作级家具资产进行高分辨率和高帧率视频序列渲染,并支持各种摄像头类型以及惯性测量。同时,我们展示了稀疏和密集 SLAM 算法的基准测试结果。
Sep, 2018
本文介绍了 ScanNet 数据集的构建,该数据集包含 2.5M 的视图和 1513 个场景,提供了 3D 摄像机姿势、表面重构和语义分割等信息,并表明使用此数据集可以在 3D 场景理解任务中实现最先进的性能。
Feb, 2017
本文研究场景理解问题,通过使用计算机图形学生成合成 3D 场景,以解决手动收集大量数据问题,从而避免了收集数据的麻烦和昂贵成本。通过使用深度数据作为输入仅使用 RGB-D 系统的深度数据,我们在 NYUv2 数据集上的表现相当于最先进的 RGBD 系统,并在 SUN RGB-D 数据集上设置了基准。文章还探讨了生成合成图像或视频数据,以及分析影响性能增益的不同因素。
Nov, 2015
通过深度卷积神经网络实现室内场景理解的任务。为了克服 RGB-D 训练数据不足的问题,采用实时渲染技术生成合成室内场景,并通过迁移学习的方式使得模型能够处理具有高度挑战性的真实场景。该神经网络具备较短的运行时间,可同时估计类别、姿态和位置等参数。
Aug, 2015
采用基于学习的方法生成大规模的合成三维场景和任意数量的真实感二维图像,用于训练、基准测试和诊断学习基础的计算机视觉和机器人算法。
Apr, 2017
本文介绍 Matterport3D 数据集,包含 10,800 个全景视图,通过 RGB-D 图片提供了 90 个建筑尺度的场景的表面重建、相机姿态和 2D、3D 语义分割注释等,可用于多种计算机视觉任务,如关键点匹配、视图重叠预测、颜色预测等。
Sep, 2017
提出了一种创造大规模室内场景的照片级真实数据集的新框架,可提供外观、布局、语义标签、高质量变化自由的 BRDF 和复杂照明等显著真实的基准数据,可用于逆向渲染、场景理解和机器人学,与物理引擎结合可创建具有摩擦系数等真实场景对应关系的虚拟机器人环境。
Jul, 2020
本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集,旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注,为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放,包含注释工具和评估基准源代码。
Mar, 2022
ScanNet++ 是一个大规模数据集,结合高质量和大众级几何和室内场景的颜色采集。它包括使用高端激光扫描仪以亚毫米的分辨率捕捉的场景,以及来自 DSLR 相机的 3300 万像素注册图像和 iPhone 的 RGB-D 流。该数据集为新视角合成提供了一个新的实际世界基准,不仅包括高质量的 RGB 采集,还包括大众级图像,同时也提供了一个全面涵盖各种模糊语义标注场景的三维语义场景理解基准。目前,ScanNet++ 包含 460 个场景,280,000 张 DSLR 图像和超过 3.7M 个 iPhone 的 RGBD 帧。
Aug, 2023
本研究介绍了一个大规模的合成数据集,该数据集包括来自 4.5k 个室内场景的 40 万张基于物理的渲染图像,研究了不同的渲染方法和场景照明对深度学习算法在表面法线预测、语义分割和物体边界检测三个计算机视觉任务中的影响,并表明,使用这个新的合成数据集进行预训练可以提高所有三个任务的结果。
Dec, 2016