MonoViT：基于视觉 Transformer 的自监督单目深度估计

Aug, 2022

MonoViT：基于视觉 Transformer 的自监督单目深度估计

MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer

Chaoqiang Zhao, Youmin Zhang, Matteo Poggi, Fabio Tosi, Xianda Guo...

TL;DR提出了一种新的基于 Vision Transformers（ViTs）和自监督单眼深度估计的框架 MonoViT，通过结合普通卷积和 Transformer 模型，能够在局部和全局推理，可以更准确地预测深度，达到了更高水平的性能，证明比其他数据集具有更好的泛化能力。

Abstract

Self-supervised monocular depth estimation is an attractive solution that does not require hard-to-source depth labels for training. Convolutional neural networks (CNNs) have recently achieved great success in this task. However, their limited receptive field constrains existing networ

self-supervised learning monocular depth estimation convolutional neural networks vision transformers kitti dataset

发现论文，激发创造

自监督单目深度估计中的 Transformer 模型（不考虑相机内参）

研究在自动驾驶和高级驾驶辅助系统下，使用视觉转换器作为新的方法来进行单目深度估计，在 KITTI 深度预测基准上取得了与卷积神经网络相似的性能，同时具有更强的鲁棒性和可扩展性。

Feb, 2022

基于自监督预训练 Vision Transformer 的单目机器人导航

使用自监督方法预训练的 Vision Transformer，成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型，其推理分辨率可以调整以平衡预测粒度和实时感知约束，并用作简单而强大的视觉伺服代理的骨干，用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。

Mar, 2022

基于 Hybrid Transformer 的特征融合用于自监督单目深度估计

本文介绍了一种新的深度估计模型，使用 Vision Transformers 来提取图像中的全局上下文信息，实现对深度估算的改进，最终该模型在标准测试数据集上达到了最优性能。

Nov, 2022

自监督预训练和微调用于单目深度和视觉里程计

我们提出了一种使用自监督变换器模型进行单目深度和视觉里程计估计任务的方法，分为两个步骤：第一步是使用跨视角补全目标（CroCo）进行通用预训练以学习 3D 几何，然后在非标注视频上进行自监督微调。我们展示了我们的自监督模型可以通过使用视觉变换器、密集预测变换器和适配器等标准组件达到最先进的性能。通过在六个基准数据集上进行评估，包括静态和动态、室内和室外、合成和真实图像，我们证明了我们提出方法的有效性，尤其在深度预测任务中超过了最先进的方法。

Jun, 2024

自我监督视觉 Transformer 训练的实证研究

本文研究的是计算机视觉中的自监督学习，探究了一些基本组件对自监督 ViT 训练的影响，发现稳定性是一个重要的问题，本文通过案例研究表明了部分成果实际上是不完全的失败，并探讨了当前的积极证据、挑战和开放问题。

Apr, 2021

自监督单目深度估计泛化性的深入挖掘

本文研究使用自监督单目深度估计算法的主干网络（如 CNNs，Transformers 和 CNN-Transformer 混合模型）在广泛的公共数据集上的泛化性能，观察到 Transformers 具有很强的形状偏差，而 CNNs 则具有很强的纹理偏差，同时提出了一种新的 CNN-Transformer 混合网络，名为 MonoFormer，该模型具有最佳的广义性能和分类性能。

May, 2022

自监督视觉 Transformer 中的新兴特性

本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性，发现自监督 ViT 特征明确包含图像的语义分割信息，在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率，并将这些发现用于自监督方法 DINO 中，通过线性评估，使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。

Apr, 2021

利用传统视觉里程计增强自监督单目深度估计

该论文提出了一种自监督学习的方法，利用几何先验和自编码器来提高单目深度估计的效果，实验结果表明该方法在 KITTI 数据集上的表现优于现有方法，适用于高性能 GPU 和嵌入式设备。

Aug, 2019

MobileViT：轻量级、通用、面向移动的视觉 Transformer

本文提出了一种 MobileViT 轻量级通用视觉变换器，将 transformers 视为卷积，可用于移动设备，取得了比 CNN 和 ViT 更好的性能，特别是在对象检测任务上。

Oct, 2021

自监督实例适应的单目深度估计

本文介绍了一种新方法，可将任何现成的自我监督的单目深度重建系统扩展到在测试时使用多个图像。该方法利用自我监督来提高多个视图可用时深度重建的准确性，在 KITTI 基准测试中，我们的自我监督方法在常见的三种设置（单目、立体和单目 + 立体）下平均减少绝对误差 25％，并在准确性上接近完全受监督的最先进方法。

Apr, 2020