基于Transformer模型的单目视觉里程计:一种视频理解方法
本文提出了一种新的、基于深度循环卷积神经网络(RCNNs)的单目 VO 的端到端框架,通过该框架,可以直接从一系列原始 RGB 图像(视频)中推断出姿态,同时具备学习有效特征表示、深度循环神经网络中的序列动力学和关系的功能,实验验证了该技术具备与传统 VO 系统相当的竞争力。
Sep, 2017
本文介绍了一种在直接稀疏视觉里结合使用视觉显著性和场景分析新方法,命名为SalientDSO,并通过CVL-UMD数据集进行了定量和定性比较,超越了DSO和ORB-SLAM这两种最先进的方法。这是首次使用视觉显著性和场景分析来驱动直接VO的特征选择。
Feb, 2018
本文提出一种基于无监督学习的单目视觉里程计系统,结合图优化和回路检测,利用神经网络构建一个包含多视图6DoF约束的窗口位姿图,并提出了一种姿态周期一致性损失来改善性能和鲁棒性,进而构建全局位姿图进行优化,实验结果表明该方法具有良好的性能和精度。
Mar, 2019
本文提出了一种单目视觉里程计算法,它结合了基于几何方法和深度学习的思想,并利用两个卷积神经网络进行深度估计和光流估计。在KITTI数据集上的实验表明,该算法具有较强的鲁棒性和良好的性能。
Sep, 2019
提出一个新的单目视觉里程计框架D3VO,它利用三个层次的深度网络——深度、姿态和不确定性估计,并使用自监督单目深度估计网络训练了预测亮度变换参数,提高了深度估计精度和提供了学习到的光度残差加权函数,进而实现前端跟踪和后端非线性优化。在KITTI里程测量基准和EuRoC MAV数据集上测试表明,D3VO在单目视觉里程计方面的表现优于传统方法和其他最先进的VO方法,同时仅使用一个相机就可以实现与最先进的立体/ LiDAR里程测量和最先进的视觉惯性里程测量相媲美的结果。
Mar, 2020
本文介绍了一种用于无人机的新型实时单目视觉里程计模型,使用了深度神经网络架构和自注意力模块,能够通过连续视频帧估计相机的自身运动,进而估计无人机的轨迹。该模型在两个视觉里程计数据集上测试,收敛速度比之前的循环神经网络模型快48%,并且平均平移漂移减少了22%,平均平移绝对轨迹误差改善了12%,表现出更强的抗噪能力。
Apr, 2024
我们提出了一种使用自监督变换器模型进行单目深度和视觉里程计估计任务的方法,分为两个步骤:第一步是使用跨视角补全目标(CroCo)进行通用预训练以学习3D几何,然后在非标注视频上进行自监督微调。我们展示了我们的自监督模型可以通过使用视觉变换器、密集预测变换器和适配器等标准组件达到最先进的性能。通过在六个基准数据集上进行评估,包括静态和动态、室内和室外、合成和真实图像,我们证明了我们提出方法的有效性,尤其在深度预测任务中超过了最先进的方法。
Jun, 2024