迈向单目深度估计的可解释性

Oct, 2023

Towards Explainability in Monocular Depth Estimation

Vasileios Arampatzakis, George Pavlidis, Kyriakos Pantoglou, Nikolaos Mitianoudis, Nikos Papamarkos

TL;DR基于深度学习的方法在二维图像深度估计方面取得了显著进展，本研究重点关注人类对深度的感知能力，并通过特定实验间接评估方法的可解释性，结果显示各种方法的平均准确率约为 77%，其中一些方法表现较好，间接揭示了它们对发现单眼深度线索如相对尺寸的潜力。

Abstract

The estimation of depth in two-dimensional images has long been a challenging and extensively studied subject in computer vision. Recently, significant progress has been made with the emergence of →

depth estimation two-dimensional images computer vision deep learning-based approaches explainability

发现论文，激发创造

单目深度估计：综述

论文综述了五篇应用不同技术（包括监督、弱监督和无监督学习技术）尝试解决单目深度估计问题的论文，并比较这些论文之间的改进和理解，最后探讨了可能有助于更好地解决这一问题的潜在改进。

Jan, 2019

基于深度学习的单目深度估计：综述

该研究对基于深度学习的单张图像深度估计方法进行了调研，总结了常用的数据集、评价指标和不同的训练方式，并讨论了未来研究中的挑战和方向。

Mar, 2020

基于自监督学习的单目图像深度估计

这个研究探讨了如何通过使用卷积神经网络和其它技术来优化和扩展基于深度学习的深度估计模型，以提高相机获取的图像的三维深度感知的精度。

Apr, 2023

神经网络如何从单张图像中感知深度？

本研究通过对 Godard 等人开发的 MonoDepth 网络的分析，探究其利用视觉线索进行深度估计的技术特性，并发现该网络忽略已知障碍物的表面大小，而是利用其在图像中的垂直位置进行深度估计，但也有一定局限性。研究进一步表明，MonoDepth 使用垂直图像位置的技术特性能够估计到任意障碍物的距离，但对于障碍物的下边缘必须有有效的边缘信息。

May, 2019

基于深度学习的单目图像和视频深度估计方法：综述

该论文综述了基于深度学习的单个 RGB 图像和视频的深度估计方法，包括输入输出模态、网络结构和学习方法的分类，历史里程碑，以及现有方法使用的流程、数据集和评估指标。

Jun, 2024

室内单张图像深度估计中不同特征的贡献

通过在室内场景数据集中使用特征提取技术，本研究量化了单一形状、纹理、颜色和饱和度等因素对深度估计的相对贡献，发现边缘检测提取的物体形状在室内环境中的贡献显著大于其他因素，而其他特征也有不同程度的贡献。这些洞察将有助于优化深度估计模型，提高其准确性和鲁棒性，并扩大基于视觉的深度估计的实际应用。

Nov, 2023

单目深度估计的深度相关自注意力

提出了一种名为 RElative Depth Transformer（RED-T）的深度估计模型，使用相对深度作为自注意力的指导，通过分配高关注权重来使类似深度的特征更加相似而不易被误用的视觉线索来提高深度估计的准确性，并在数据集上取得了竞争性的结果。

Apr, 2023

NDDepth：正态 - 距离辅助单目深度估计

基于物理驱动的深度学习框架用于单目深度估计，通过假设 3D 场景由分段平面组成，提出了一种新的正常 - 距离头来推导每个位置的深度，同时，通过开发的面感知一致性约束对正常和距离进行规范化，并引入了额外的深度头来改善框架的鲁棒性，利用有效的对比迭代细化模块根据深度的不确定性互补地对深度进行精细化改进，实验证明该方法在 NYU-Depth-v2、KITTI 和 SUN RGB-D 数据集上超过了现有的最先进竞争方法，值得注意的是，它在 KITTI 深度预测在线基准测试中的提交时间中排名第一。

Sep, 2023

使用双像素学习单目摄像机深度估计

通过使用现代摄像头上越来越常见的双像素自动对焦硬件，识别深度估计中的不确定性并开发了一种方法解决它，使基于学习的方法可以很好地应用于双像素图像，提高了成像质量。

Apr, 2019

无监督单目深度估计与左右一致性

本研究提出一种基于卷积神经网络的单张图像深度估计方法，使用更容易获取的双目立体视觉图像替代需要大量对应地面真实深度数据的监督式回归训练，通过利用同一场景下两个视点的对极约束，生成视差图，并利用一种新的训练目标函数，结合左右两张图像的视差图像互相匹配和校准，提高了深度估计的性能表现，从而实现了在 KITTI 数据集上的单张图像深度估计的最新领先水平，甚至超过了基于真实深度训练的监督式方法。

Sep, 2016