低计算量的单目深度分布对齐

Mar, 2022

Monocular Depth Distribution Alignment with Low Computation

Fei Sheng, Feng Xue, Yicong Chang, Wenteng Liang, Anlong Ming

TL;DR提出了一种基于深度分布对轻量级网络与重量级网络之间的精度差异进行建模的分布对齐网络(DANet)，并使用金字塔场景转换模块(PST)模块和本地全局优化(LGO)方案进行全局深度监督，以实现深度分布形状和场景深度范围的对齐，从而大大缓解了分布漂移并实现与重量级方法相当的性能。

Abstract

The performance of monocular depth estimation generally depends on the amount of parameters and computational cost. It leads to a large accuracy contrast between light-weight networks and →

发现论文，激发创造

利用过完备局部网络的协调作用从一张图像中获取深度

使用神经网络对本地场景几何结构进行建模，通过对不同阶、方向和比例下的深度导数进行概率分布预测，采用全球化处理方法获得一个一致性深度图以解决深度估计中的歧义。

May, 2016

稳健的单目深度估计:通过混合数据集实现零样本跨数据集转移

本文提出了一种深度估计的训练方法，利用多种不同来源的数据集和多目标学习来提高训练效果，同时跨数据集的测试结果表明该方法优于竞争方法并取得了深度估计领域的最新成果。

Jul, 2019

面向单目深度估计的结构感知残差金字塔网络

该论文提出了一种基于多尺度结构的单目深度估计方法，即结构感知残差金字塔网络（SARPN）。在该网络中，采用残差金字塔解码器来表达全局场景结构和局部形态细节，以及残差细化模块来预测残差图，同时采取自适应稠密特征融合模块来利用来自所有尺度的有效特征。实验结果表明，该方法在NYU-深度v2数据集上高效实用，达到了最先进的性能。

Jul, 2019

DepthFormer：利用长程相关性和局部信息进行准确的单眼深度估计

该研究提出了一种基于Transformer和CNN特征组合的分层聚合模型，以解决有监督单目深度估计的问题，实验结果表明，该模型在KITTI、NYU和SUN RGB-D等数据集上均超越了现有的有监督单目深度估计方法，特别是在KITTI深度估计基准测试上实现了最具竞争力的结果。

Mar, 2022

P3Depth: 利用分段平面先验的单目深度估计

提出了一种基于像素平面性先验的单目深度估计方法，并使用具有两个输出头的卷积神经网络来学习并由此实现端到端的训练，以预测尖锐边缘和具有合理3D重建的深度图，将其在NYU Depth-v2和KITTI的Garg数据集上的实验结果击败了以前的方法并创造了最新的技术成果。

Apr, 2022

自监督单目深度估计泛化性的深入挖掘

本文研究使用自监督单目深度估计算法的主干网络（如CNNs，Transformers和CNN-Transformer混合模型）在广泛的公共数据集上的泛化性能，观察到Transformers具有很强的形状偏差，而CNNs则具有很强的纹理偏差，同时提出了一种新的CNN-Transformer混合网络，名为MonoFormer，该模型具有最佳的广义性能和分类性能。

May, 2022

MonoViT：基于视觉Transformer的自监督单目深度估计

提出了一种新的基于 Vision Transformers（ViTs）和自监督单眼深度估计的框架 MonoViT，通过结合普通卷积和 Transformer 模型，能够在局部和全局推理，可以更准确地预测深度，达到了更高水平的性能，证明比其他数据集具有更好的泛化能力。

Aug, 2022

HRDFuse: 全局协作学习深度全景估计模型中整体和区域深度分布

本文提出了一种新颖的框架HRDFuse，该框架利用卷积神经网络和transformers协同学习从ERP和TP中捕获整体和区域上下文信息，以预测深度细节并生成最终的深度图，实验表明我们的方法预测出更平滑和精确的深度结果，并比现有技术实现更好的效果。

Mar, 2023

摄像机高度不变：无监督单目尺度感知道路场景深度估计

本文介绍了一种名为StableCamH的新型尺度感知单目深度估计方法，它利用场景中物体的高度先验知识，将深度估计问题转化为相机高度优化，通过无监督端到端训练实现了稳健准确的估计，并且提出了一种可直接将车辆外观转化为尺寸的基于学习的尺寸先验方法。在KITTI和Cityscapes数据集上的大量实验证明了StableCamH的有效性、与相关方法相比的最先进准确性以及其通用性，该训练框架可用于任何单目深度估计方法，希望能够成为进一步研究的基础组成部分。

Dec, 2023

CT-MVSNet: 交叉尺度变换的高效多视角立体视觉

本文提出了一种新颖的跨尺度变换器来处理不同阶段的特征表示，同时引入了自适应匹配感知变换器、双特征引导聚合和特征度量损失等方法，以提高深度估计的准确性。实验证明，这种方法在DTU数据集和Tanks and Temples基准测试中取得了最先进的结果。

Dec, 2023