用于单目视觉里程计尺度估计的密集预测变换器
通过利用深度单目深度预测来改进单目视觉里程计,利用直接虚拟立体测量方法将深度预测与 Direct Sparse Odometry(DSO)相结合,关键考虑半监督学习,并在 KITTI 基准测试中超越其他的方法,实现了与基于立体相机的方法相当的性能。
Jul, 2018
利用基于自注意力机制的 TSformer-VO 模型,将单目视觉里程计作为视频理解任务,从视频片段中提取特征并通过端到端的方式估计摄像机的 6-DoF 位姿,取得了与基于几何和深度学习的方法相比具有竞争力的业内领先表现。
May, 2023
我们提出了一种使用自监督变换器模型进行单目深度和视觉里程计估计任务的方法,分为两个步骤:第一步是使用跨视角补全目标(CroCo)进行通用预训练以学习 3D 几何,然后在非标注视频上进行自监督微调。我们展示了我们的自监督模型可以通过使用视觉变换器、密集预测变换器和适配器等标准组件达到最先进的性能。通过在六个基准数据集上进行评估,包括静态和动态、室内和室外、合成和真实图像,我们证明了我们提出方法的有效性,尤其在深度预测任务中超过了最先进的方法。
Jun, 2024
研究在自动驾驶和高级驾驶辅助系统下,使用视觉转换器作为新的方法来进行单目深度估计,在 KITTI 深度预测基准上取得了与卷积神经网络相似的性能,同时具有更强的鲁棒性和可扩展性。
Feb, 2022
本文提出了稠密视觉 Transformer(dense vision transformers)作为密集预测任务的主干网络,相对于全卷积网络,该结构以恒定和较高的分辨率处理表示,并在每个阶段具有全局感受野。在单眼深度估计和语义分割任务上,我们的实验表明,该结构在有大量训练数据的情况下能够显着提高性能,是一种大有前途的新型神经网络结构。
Mar, 2021
本文提出了一种称为 ZeroDepth 的单目深度估计框架,采用输入级几何嵌入和变分潜在表示,并将编码器和解码器阶段解耦合,可以在不同域和相机参数的情况下预测任意测试图像的尺度。在户内(NYUv2)和户外(KITTI,DDAD,nuScenes)基准测试中,使用相同的预训练模型取得了最新的最佳成果,优于基于域内数据训练和需要测试时缩放以产生度量估计的方法。
Jun, 2023
本文介绍了一个全新的深度学习方法来进行单目 SLAM,通过使用学习视觉里程计(L-VO)和稠密 3D 映射的神经网络,该方法能够实现同时定位与建图。
Mar, 2018
该论文提出了一种自监督学习的方法,利用几何先验和自编码器来提高单目深度估计的效果,实验结果表明该方法在 KITTI 数据集上的表现优于现有方法,适用于高性能 GPU 和嵌入式设备。
Aug, 2019
提出一个新的单目视觉里程计框架 D3VO,它利用三个层次的深度网络 —— 深度、姿态和不确定性估计,并使用自监督单目深度估计网络训练了预测亮度变换参数,提高了深度估计精度和提供了学习到的光度残差加权函数,进而实现前端跟踪和后端非线性优化。在 KITTI 里程测量基准和 EuRoC MAV 数据集上测试表明,D3VO 在单目视觉里程计方面的表现优于传统方法和其他最先进的 VO 方法,同时仅使用一个相机就可以实现与最先进的立体 / LiDAR 里程测量和最先进的视觉惯性里程测量相媲美的结果。
Mar, 2020