用于单目视觉里程计尺度估计的密集预测变换器

Oct, 2022

用于单目视觉里程计尺度估计的密集预测变换器

Dense Prediction Transformer for Scale Estimation in Monocular Visual Odometry

André O. Françani, Marcos R. O. A. Maximo

TL;DR本文使用密集预测变换器模型进行尺度估计，解决单目视觉测距系统中尺度漂移问题，通过深度图的准确估计，取得竞争性的最新成果。

Abstract

monocular visual odometry consists of the estimation of the position of an agent through images of a single camera, and it is applied in autonomous vehicles, medical robots, and augmented reality. However, monocular systems suffer from the →

monocular visual odometry scale ambiguity dense prediction transformer model depth map state-of-the-art

发现论文，激发创造

深度虚拟立体里程计：利用深度预测为基准的单目直接稀疏里程计

通过利用深度单目深度预测来改进单目视觉里程计，利用直接虚拟立体测量方法将深度预测与 Direct Sparse Odometry（DSO）相结合，关键考虑半监督学习，并在 KITTI 基准测试中超越其他的方法，实现了与基于立体相机的方法相当的性能。

Jul, 2018

基于 Transformer 模型的单目视觉里程计：一种视频理解方法

利用基于自注意力机制的 TSformer-VO 模型，将单目视觉里程计作为视频理解任务，从视频片段中提取特征并通过端到端的方式估计摄像机的 6-DoF 位姿，取得了与基于几何和深度学习的方法相比具有竞争力的业内领先表现。

May, 2023

自监督预训练和微调用于单目深度和视觉里程计

我们提出了一种使用自监督变换器模型进行单目深度和视觉里程计估计任务的方法，分为两个步骤：第一步是使用跨视角补全目标（CroCo）进行通用预训练以学习 3D 几何，然后在非标注视频上进行自监督微调。我们展示了我们的自监督模型可以通过使用视觉变换器、密集预测变换器和适配器等标准组件达到最先进的性能。通过在六个基准数据集上进行评估，包括静态和动态、室内和室外、合成和真实图像，我们证明了我们提出方法的有效性，尤其在深度预测任务中超过了最先进的方法。

Jun, 2024

自监督单目深度估计中的 Transformer 模型（不考虑相机内参）

研究在自动驾驶和高级驾驶辅助系统下，使用视觉转换器作为新的方法来进行单目深度估计，在 KITTI 深度预测基准上取得了与卷积神经网络相似的性能，同时具有更强的鲁棒性和可扩展性。

Feb, 2022

稠密预测的视觉 Transformer

本文提出了稠密视觉 Transformer（dense vision transformers）作为密集预测任务的主干网络，相对于全卷积网络，该结构以恒定和较高的分辨率处理表示，并在每个阶段具有全局感受野。在单眼深度估计和语义分割任务上，我们的实验表明，该结构在有大量训练数据的情况下能够显着提高性能，是一种大有前途的新型神经网络结构。

Mar, 2021

朝着零样本比例感知单目深度估计的方向

本文提出了一种称为 ZeroDepth 的单目深度估计框架，采用输入级几何嵌入和变分潜在表示，并将编码器和解码器阶段解耦合，可以在不同域和相机参数的情况下预测任意测试图像的尺度。在户内（NYUv2）和户外（KITTI，DDAD，nuScenes）基准测试中，使用相同的预训练模型取得了最新的最佳成果，优于基于域内数据训练和需要测试时缩放以产生度量估计的方法。

Jun, 2023

基于稠密三维流的单目视觉里程计与稠密三维建图学习

本文介绍了一个全新的深度学习方法来进行单目 SLAM，通过使用学习视觉里程计（L-VO）和稠密 3D 映射的神经网络，该方法能够实现同时定位与建图。

Mar, 2018

利用传统视觉里程计增强自监督单目深度估计

该论文提出了一种自监督学习的方法，利用几何先验和自编码器来提高单目深度估计的效果，实验结果表明该方法在 KITTI 数据集上的表现优于现有方法，适用于高性能 GPU 和嵌入式设备。

Aug, 2019

单目自监督深度估计的多模态比例一致性和感知

通过提出一个动态加权的 GPS-to-Scale 损失函数来利用全球定位系统数据提高稠密深度估计，从而实现尺度一致和感知的深度估计。

Mar, 2021

D3VO：单目视觉测距、姿态和不确定性的深度模型

提出一个新的单目视觉里程计框架 D3VO，它利用三个层次的深度网络 —— 深度、姿态和不确定性估计，并使用自监督单目深度估计网络训练了预测亮度变换参数，提高了深度估计精度和提供了学习到的光度残差加权函数，进而实现前端跟踪和后端非线性优化。在 KITTI 里程测量基准和 EuRoC MAV 数据集上测试表明，D3VO 在单目视觉里程计方面的表现优于传统方法和其他最先进的 VO 方法，同时仅使用一个相机就可以实现与最先进的立体 / LiDAR 里程测量和最先进的视觉惯性里程测量相媲美的结果。

Mar, 2020