迈向单目深度估计的可解释性
论文综述了五篇应用不同技术(包括监督、弱监督和无监督学习技术)尝试解决单目深度估计问题的论文,并比较这些论文之间的改进和理解,最后探讨了可能有助于更好地解决这一问题的潜在改进。
Jan, 2019
本研究通过对 Godard 等人开发的 MonoDepth 网络的分析,探究其利用视觉线索进行深度估计的技术特性,并发现该网络忽略已知障碍物的表面大小,而是利用其在图像中的垂直位置进行深度估计,但也有一定局限性。研究进一步表明,MonoDepth 使用垂直图像位置的技术特性能够估计到任意障碍物的距离,但对于障碍物的下边缘必须有有效的边缘信息。
May, 2019
该论文综述了基于深度学习的单个 RGB 图像和视频的深度估计方法,包括输入输出模态、网络结构和学习方法的分类,历史里程碑,以及现有方法使用的流程、数据集和评估指标。
Jun, 2024
通过在室内场景数据集中使用特征提取技术,本研究量化了单一形状、纹理、颜色和饱和度等因素对深度估计的相对贡献,发现边缘检测提取的物体形状在室内环境中的贡献显著大于其他因素,而其他特征也有不同程度的贡献。这些洞察将有助于优化深度估计模型,提高其准确性和鲁棒性,并扩大基于视觉的深度估计的实际应用。
Nov, 2023
提出了一种名为 RElative Depth Transformer(RED-T)的深度估计模型,使用相对深度作为自注意力的指导,通过分配高关注权重来使类似深度的特征更加相似而不易被误用的视觉线索来提高深度估计的准确性,并在数据集上取得了竞争性的结果。
Apr, 2023
基于物理驱动的深度学习框架用于单目深度估计,通过假设 3D 场景由分段平面组成,提出了一种新的正常 - 距离头来推导每个位置的深度,同时,通过开发的面感知一致性约束对正常和距离进行规范化,并引入了额外的深度头来改善框架的鲁棒性,利用有效的对比迭代细化模块根据深度的不确定性互补地对深度进行精细化改进,实验证明该方法在 NYU-Depth-v2、KITTI 和 SUN RGB-D 数据集上超过了现有的最先进竞争方法,值得注意的是,它在 KITTI 深度预测在线基准测试中的提交时间中排名第一。
Sep, 2023
通过使用现代摄像头上越来越常见的双像素自动对焦硬件,识别深度估计中的不确定性并开发了一种方法解决它,使基于学习的方法可以很好地应用于双像素图像,提高了成像质量。
Apr, 2019
本研究提出一种基于卷积神经网络的单张图像深度估计方法,使用更容易获取的双目立体视觉图像替代需要大量对应地面真实深度数据的监督式回归训练,通过利用同一场景下两个视点的对极约束,生成视差图,并利用一种新的训练目标函数,结合左右两张图像的视差图像互相匹配和校准,提高了深度估计的性能表现,从而实现了在 KITTI 数据集上的单张图像深度估计的最新领先水平,甚至超过了基于真实深度训练的监督式方法。
Sep, 2016