单目深度估计神经网络结构的普适性研究

Jan, 2023

单目深度估计神经网络结构的普适性研究

A Study on the Generality of Neural Network Structures for Monocular Depth Estimation

Jinwoo Bae, Kyumin Hwang, Sunghoon Im

TL;DR通过广泛实验，我们观察到 Transformer 模型表现出强的形状偏见，而 CNN 模型则表现出强的纹理偏见，并且发现纹理偏见的模型比形状偏见的模型在单目深度估计中表现更差，同时进行了各种背骨网络的密集消融研究，实验证明 CNN 和 Transformer 的内在局部性会引入纹理偏见和形状偏见。

Abstract

monocular depth estimation has been widely studied, and significant improvements in performance have been recently reported. However, most previous works are evaluated on a few benchmark datasets, such as KITTI datasets, and none of the works provide an in-depth analysis of the general

monocular depth estimation backbone networks cnn transformer models generalization performance

发现论文，激发创造

自监督单目深度估计泛化性的深入挖掘

本文研究使用自监督单目深度估计算法的主干网络（如 CNNs，Transformers 和 CNN-Transformer 混合模型）在广泛的公共数据集上的泛化性能，观察到 Transformers 具有很强的形状偏差，而 CNNs 则具有很强的纹理偏差，同时提出了一种新的 CNN-Transformer 混合网络，名为 MonoFormer，该模型具有最佳的广义性能和分类性能。

May, 2022

自监督单目深度估计中的 Transformer 模型（不考虑相机内参）

研究在自动驾驶和高级驾驶辅助系统下，使用视觉转换器作为新的方法来进行单目深度估计，在 KITTI 深度预测基准上取得了与卷积神经网络相似的性能，同时具有更强的鲁棒性和可扩展性。

Feb, 2022

基于深度学习的单目深度估计：综述

该研究对基于深度学习的单张图像深度估计方法进行了调研，总结了常用的数据集、评价指标和不同的训练方式，并讨论了未来研究中的挑战和方向。

Mar, 2020

神经网络如何从单张图像中感知深度？

本研究通过对 Godard 等人开发的 MonoDepth 网络的分析，探究其利用视觉线索进行深度估计的技术特性，并发现该网络忽略已知障碍物的表面大小，而是利用其在图像中的垂直位置进行深度估计，但也有一定局限性。研究进一步表明，MonoDepth 使用垂直图像位置的技术特性能够估计到任意障碍物的距离，但对于障碍物的下边缘必须有有效的边缘信息。

May, 2019

单目深度估计器：漏洞和攻击

本文旨在探讨当前最先进的单目深度估计神经网络对抗攻击的鲁棒性，实验结果表明微小的打扰和少于 1% 的图像损坏就会极大地影响深度估计，并提出一种新的深度特征损坏损失来增强攻击效果

May, 2020

DepthFormer：利用长程相关性和局部信息进行准确的单眼深度估计

该研究提出了一种基于 Transformer 和 CNN 特征组合的分层聚合模型，以解决有监督单目深度估计的问题，实验结果表明，该模型在 KITTI、NYU 和 SUN RGB-D 等数据集上均超越了现有的有监督单目深度估计方法，特别是在 KITTI 深度估计基准测试上实现了最具竞争力的结果。

Mar, 2022

改善 Transformer 中的深度梯度连续性：以卷积神经网络为基础的单目深度估计的比较研究

通过对比分析 Transformer 模型和 CNN 在处理 2D 图像中不同区域以及对深度估计性能的影响方面的差异，我们发现 Transformer 在处理全局上下文和复杂纹理方面表现出色，但在保持深度梯度连续性方面落后于 CNN。为了进一步提高 Transformer 模型在单目深度估计中的性能，我们提出了深度梯度精炼（DGR）模块，通过高阶微分、特征融合和重新校准来提升深度估计。此外，我们利用最优输运理论将深度图像视为空间概率分布，并采用最优输运距离作为损失函数对模型进行优化。实验结果表明，与 DGR 模块和提出的损失函数集成的模型在不增加复杂性和计算成本的情况下提高了性能。这项研究不仅提供了关于 Transformer 和 CNN 在深度估计中的差异的新见解，而且为新的深度估计方法铺平了道路。

Aug, 2023

单目深度估计中扩展基于扩散的图像生成器的重新利用

从单幅图像恢复 3D 深度是一项基础的计算机视觉任务，本研究提出了一种基于稳定扩散方法的仿射不变单目深度估计方法 Marigold，通过使用先前生成扩散模型中捕获的大量先验知识，该方法在各种数据集上取得了最先进的性能表现。

Dec, 2023

深度邻居层聚合轻量级自监督单目深度估计

我们提出了一种全卷积深度估计网络，利用上下文特征融合，采用高分辨率和低分辨率特征来保留小目标和高速移动物体的信息，进一步在解码器阶段采用基于卷积的轻量级通道注意力来优化深度估计结果，降低参数数量同时保持准确性。

Sep, 2023

基于迁移学习的高质量单目深度估计

本文提出了一种基于卷积神经网络的深度估计方法，结合迁移学习使用高性能网络初始化编码器以及增强和训练策略以获得更准确的结果，结果表明，即使是非常简单的解码器，我们的方法也能够产生细节详尽的高分辨率深度图像。

Dec, 2018