低计算量的单目深度分布对齐
使用神经网络对本地场景几何结构进行建模,通过对不同阶、方向和比例下的深度导数进行概率分布预测,采用全球化处理方法获得一个一致性深度图以解决深度估计中的歧义。
May, 2016
本文提出了一种深度估计的训练方法,利用多种不同来源的数据集和多目标学习来提高训练效果,同时跨数据集的测试结果表明该方法优于竞争方法并取得了深度估计领域的最新成果。
Jul, 2019
该论文提出了一种基于多尺度结构的单目深度估计方法,即结构感知残差金字塔网络(SARPN)。在该网络中,采用残差金字塔解码器来表达全局场景结构和局部形态细节,以及残差细化模块来预测残差图,同时采取自适应稠密特征融合模块来利用来自所有尺度的有效特征。实验结果表明,该方法在NYU-深度v2数据集上高效实用,达到了最先进的性能。
Jul, 2019
该研究提出了一种基于Transformer和CNN特征组合的分层聚合模型,以解决有监督单目深度估计的问题,实验结果表明,该模型在KITTI、NYU和SUN RGB-D等数据集上均超越了现有的有监督单目深度估计方法,特别是在KITTI深度估计基准测试上实现了最具竞争力的结果。
Mar, 2022
提出了一种基于像素平面性先验的单目深度估计方法,并使用具有两个输出头的卷积神经网络来学习并由此实现端到端的训练,以预测尖锐边缘和具有合理3D重建的深度图,将其在NYU Depth-v2和KITTI的Garg数据集上的实验结果击败了以前的方法并创造了最新的技术成果。
Apr, 2022
本文研究使用自监督单目深度估计算法的主干网络(如CNNs,Transformers和CNN-Transformer混合模型)在广泛的公共数据集上的泛化性能,观察到Transformers具有很强的形状偏差,而CNNs则具有很强的纹理偏差,同时提出了一种新的CNN-Transformer混合网络,名为MonoFormer,该模型具有最佳的广义性能和分类性能。
May, 2022
提出了一种新的基于 Vision Transformers(ViTs)和自监督单眼深度估计的框架 MonoViT,通过结合普通卷积和 Transformer 模型,能够在局部和全局推理,可以更准确地预测深度,达到了更高水平的性能,证明比其他数据集具有更好的泛化能力。
Aug, 2022
本文提出了一种新颖的框架HRDFuse,该框架利用卷积神经网络和transformers协同学习从ERP和TP中捕获整体和区域上下文信息,以预测深度细节并生成最终的深度图,实验表明我们的方法预测出更平滑和精确的深度结果,并比现有技术实现更好的效果。
Mar, 2023
本文介绍了一种名为StableCamH的新型尺度感知单目深度估计方法,它利用场景中物体的高度先验知识,将深度估计问题转化为相机高度优化,通过无监督端到端训练实现了稳健准确的估计,并且提出了一种可直接将车辆外观转化为尺寸的基于学习的尺寸先验方法。在KITTI和Cityscapes数据集上的大量实验证明了StableCamH的有效性、与相关方法相比的最先进准确性以及其通用性,该训练框架可用于任何单目深度估计方法,希望能够成为进一步研究的基础组成部分。
Dec, 2023
本文提出了一种新颖的跨尺度变换器来处理不同阶段的特征表示,同时引入了自适应匹配感知变换器、双特征引导聚合和特征度量损失等方法,以提高深度估计的准确性。实验证明,这种方法在DTU数据集和Tanks and Temples基准测试中取得了最先进的结果。
Dec, 2023