Mirror3D:针对镜面表面的深度细化
这篇论文介绍了第一个大规模的 3D 反射检测数据集,包含超过 50,000 个多返回 Lidar、RGB 图像和 2D/3D 语义标签样本,在各种室内环境中,含有不同类型的反射。通过纹理化的 3D 地面真实网格实现自动点云标注,提供精确的地面真实标注。详细的评估对比了三种 Lidar 点云分割方法,以及当前最先进的图像分割网络对玻璃和镜子的检测。该数据集通过提供准确的全局对齐、多模态数据和各种反射物体和材料,推动了反射检测的进一步研究。该数据集可以在指定的 http 链接公开获取。
Mar, 2024
通过神经网络学习适当估计透明或镜面表面的深度,无需任何真实标注,通过图像修复和处理得到可靠的伪标签,用于微调现有的单目或双目网络以学习处理透明或镜面表面,实验证实了我们提出的简单方法带来的显著改进。
Jul, 2023
基于物理驱动的深度学习框架用于单目深度估计,通过假设 3D 场景由分段平面组成,提出了一种新的正常 - 距离头来推导每个位置的深度,同时,通过开发的面感知一致性约束对正常和距离进行规范化,并引入了额外的深度头来改善框架的鲁棒性,利用有效的对比迭代细化模块根据深度的不确定性互补地对深度进行精细化改进,实验证明该方法在 NYU-Depth-v2、KITTI 和 SUN RGB-D 数据集上超过了现有的最先进竞争方法,值得注意的是,它在 KITTI 深度预测在线基准测试中的提交时间中排名第一。
Sep, 2023
通过假设 3D 场景由分段平面组成,本文提出了针对单目深度估计和补全任务的新型物理(几何)推动深度学习框架。我们通过估计表面法线和平面到原点的距离图或补全稀疏表面法线和距离图作为中间输出,提出了一个法线 - 距离模块。同时,通过开发出平面感知一致性约束来规范化表面法线和距离图,并将其转换为深度图。此外,还集成了一个额外的深度模块来增强所提出框架的鲁棒性。在 NYU-Depth-v2、KITTI 和 SUN RGB-D 数据集上的大量实验表明,我们的方法在单目深度估计和补全任务方面胜过了先前的最先进竞争方法。
Nov, 2023
本文使用 Grand Theft Auto (GTA-V) 生成高分辨率的合成深度数据集 (HRSD),包含 100,000 张彩色图像和相应的密集地面真实深度图,实验结果表明,使用此数据集训练的 DPT 算法在不同场景下的深度估计精度提高了 9%,进一步利用特征提取模块和注意力损失,可以将准确度提高 15%。
May, 2023
使用基于学生 - 教师策略、数据集成和立体信心引导回归损失的方法,可以提高单目深度估计的精度,并用于高级视觉任务,如室外场景的驾驶情境等。
Apr, 2019
本文介绍 Matterport3D 数据集,包含 10,800 个全景视图,通过 RGB-D 图片提供了 90 个建筑尺度的场景的表面重建、相机姿态和 2D、3D 语义分割注释等,可用于多种计算机视觉任务,如关键点匹配、视图重叠预测、颜色预测等。
Sep, 2017
本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集,旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注,为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放,包含注释工具和评估基准源代码。
Mar, 2022
本文提出了一种基于掩码图像的深度优化方法,该方法可以使用自监督学习技术和单张图像估计模型进行深度的有效细化,能够较好地解决单张深度估计模型在物体内外边界处存在的问题,并在真实应用中取得了良好的效果。
Jun, 2022
360 度图像的深度估计是虚拟现实、自主导航和沉浸式媒体应用中至关重要的,本研究提出了一种使用未标记 360 度数据的深度估计框架,通过六面立方体投影技术生成伪标签来高效标注 360 度图像的深度,并在深度估计的准确度上展示了显著改进,特别是在零样本情况下。
Jun, 2024