基于 Transformer 的多帧自监督深度学习

CVPRApr, 2022

基于 Transformer 的多帧自监督深度学习

Multi-Frame Self-Supervised Depth with Transformers

Vitor Guizilini, Rares Ambrus, Dian Chen, Sergey Zakharov, Adrien Gaidon

TL;DR本研究提出了使用特征匹配和转换器架构进行单目自监督深度估计的新方法，通过使用深度离散化的极线采样选择匹配候选项，并通过一系列的自注意力和交叉注意力层来改进预测。该方法可以从视频中单独训练，从而建立自监督单目深度估计的最新技术，并具有一定的泛化性能.

Abstract

Multi-frame depth estimation improves over single-frame approaches by also leveraging geometric relationships between images via feature matching, in addition to learning appearance-based features. In this paper

depth estimation feature matching self-supervised learning transformer architecture cost volume generation

发现论文，激发创造

自监督单目深度估计中的 Transformer 模型（不考虑相机内参）

研究在自动驾驶和高级驾驶辅助系统下，使用视觉转换器作为新的方法来进行单目深度估计，在 KITTI 深度预测基准上取得了与卷积神经网络相似的性能，同时具有更强的鲁棒性和可扩展性。

Feb, 2022

基于 Hybrid Transformer 的特征融合用于自监督单目深度估计

本文介绍了一种新的深度估计模型，使用 Vision Transformers 来提取图像中的全局上下文信息，实现对深度估算的改进，最终该模型在标准测试数据集上达到了最优性能。

Nov, 2022

自监督单目深度估计泛化性的深入挖掘

本文研究使用自监督单目深度估计算法的主干网络（如 CNNs，Transformers 和 CNN-Transformer 混合模型）在广泛的公共数据集上的泛化性能，观察到 Transformers 具有很强的形状偏差，而 CNNs 则具有很强的纹理偏差，同时提出了一种新的 CNN-Transformer 混合网络，名为 MonoFormer，该模型具有最佳的广义性能和分类性能。

May, 2022

FusionDepth: 用代价体积补充自监督单目深度估计

本篇论文提出了一个基于多帧深度估计的框架，使用连续的多帧约束不断优化单目深度估计，利用贝叶斯融合层进行多帧深度估计的迭代，同时不需要深度监督训练。实验结果表明，该方法在 KITTI 基准测试中，相较于单个帧或多个帧的无监督方法，取得了更好的性能。

May, 2023

时间机会主义者：自监督多帧单目深度

提出 ManyDepth，一种自适应的、可以在测试时间利用序列信息的深度估计方法，通过深度自监督训练基于端到端代价体系积攒的方法，鼓励网络忽略不可靠的代价体以及针对静态相机场景的增强方案。实验证明此方法在 KITTI 和 Cityscapes 上表现优于其他单帧和多帧的自监督基线模型。

Apr, 2021

DepthFormer：利用长程相关性和局部信息进行准确的单眼深度估计

该研究提出了一种基于 Transformer 和 CNN 特征组合的分层聚合模型，以解决有监督单目深度估计的问题，实验结果表明，该模型在 KITTI、NYU 和 SUN RGB-D 等数据集上均超越了现有的有监督单目深度估计方法，特别是在 KITTI 深度估计基准测试上实现了最具竞争力的结果。

Mar, 2022

利用传统视觉里程计增强自监督单目深度估计

该论文提出了一种自监督学习的方法，利用几何先验和自编码器来提高单目深度估计的效果，实验结果表明该方法在 KITTI 数据集上的表现优于现有方法，适用于高性能 GPU 和嵌入式设备。

Aug, 2019

探索自监督单帧与多帧深度估计之间的相互影响

提出了一个新的自监督训练框架来充分利用单帧和多帧深度方法之间的相互影响，其中包括像素适应深度采样模块、最小重投影教师信号以及将单帧深度作为先验来进一步提高多帧深度估计性能。实验结果表明，该方法在自监督的单目设置中优于现有方法。

Apr, 2023

不要忘记过去：从单目视频中的循环深度估计

本文介绍了一种基于 ConvLSTM 和三种不同类型深度预测网络的自监督实时单目深度估计和完成方法，能够产生一系列的深度图，该方法灵活且可与不同类型稀疏深度图案件组合使用，实验表明，我们的方法在自监督场景中始终优于其基于图像的对应方法，并且在三个流行组的深度预测方法中也表现出更好的性能。

Jan, 2020

基于 Transformer 编码器和特征融合的深度估计算法

该研究提出了一种基于 Transformer 编码器架构的创新深度估计算法，针对 NYU 和 KITTI 深度数据集。该研究采用 Transformer 模型来捕捉图像数据中的复杂空间关系以用于深度估计任务，并集成了结构相似性指数 (SSIM) 和均方误差 (MSE) 的复合损失函数，以确保预测的深度图像在结构上保持一致并最小化像素级估计误差。经过严格训练和评估，模型在 NYU 深度数据集上展现出卓越性能，为单幅图像深度估计，尤其是在复杂室内和交通环境中，带来了显著的进展。

Mar, 2024