J-MOD$^{2}$:联合单目障碍物检测和深度估计
提出了一种基于 MoVi-3D 的深度学习架构,使用几何信息生成虚拟视图对单目 RGB 进行 3D 物体检测,与传统方法相比,成功削减了视觉差异性导致的深度学习复杂度,从而取得了 KITTI3D 基准测试的新的最优结果。
Dec, 2019
使用光学传感器进行无人机的检测、跟踪和距离估计,通过深度学习框架、目标检测模块、跟踪模块和深度估计模块实现全自主飞行和高级空中流动的无人机。
May, 2024
该研究论文提出了一种新颖的自监督双帧多摄像头度量深度估计网络 (M^2Depth),旨在预测自动驾驶中可靠的具有尺度感知的周围深度。与以往使用单个时间步的多视图图像或单个相机的多个时间步图像不同,M^2Depth 采用多个相机的时间相邻的两帧图像作为输入,并生成高质量的周围深度。我们首先在空间和时间域中构造成本体积,并提出一个融合空间 - 时间信息的模块来生成强大的体积表示。我们还将 SAM 特征的神经先验与内部特征相结合,以减少前景和背景之间的模糊性并加强深度边缘。在 nuScenes 和 DDAD 基准测试上的大量实验证明,M^2Depth 实现了最先进的性能。更多结果可以在此 https URL 中找到。
May, 2024
本文介绍了一种基于外观的障碍物检测系统,使用深度神经网络的方法进行训练,能够在高速行驶、长距离、低维度等复杂情况下对障碍物进行检测。
Jul, 2016
该文章提出了一种新型的多任务学习系统,将外观和运动线索相结合,以更好地对环境进行语义推理,其中介绍了一种联合车辆检测和运动分割的统一架构,并使用 KITTI 数据集评估了该方法,在运动检测任务上的性能优于其他利用运动线索方法 21.5%,在通用物体分割任务上表现与现有的无监督方法相当,其中一个有趣的结论是运动分割与车辆检测的联合训练有益于运动分割
Sep, 2017
提出了一种新颖的单目定位框架,通过联合训练基于深度预测的深度学习和基于贝叶斯滤波的姿态推理,能够显著改进模型可伸缩性和环境变化的容忍度,即使深度预测非常差,也能保持高精度的姿态准确性,并且相对于标准的深度学习具有更高的光照变化下的姿态准确性。
Oct, 2022
本文介绍了一种用于无人机的新型实时单目视觉里程计模型,使用了深度神经网络架构和自注意力模块,能够通过连续视频帧估计相机的自身运动,进而估计无人机的轨迹。该模型在两个视觉里程计数据集上测试,收敛速度比之前的循环神经网络模型快 48%,并且平均平移漂移减少了 22%,平均平移绝对轨迹误差改善了 12%,表现出更强的抗噪能力。
Apr, 2024
提出了一种新的多模态神经网络 UAMD-Net,通过融合双目立体匹配和稀疏点云的弱约束进行深度完善,并使用新的训练策略 Modal-dropout 使得网络能够适应多种模态输入条件,该方法在 KITTI 深度完善基准测试中的实验表明其能够产生鲁棒的结果,并优于其他最先进的方法。
Apr, 2022
本论文介绍了一种用于深度估计和语义分割的神经网络框架设计,分析了深度和语义预测图之间的交叉模态影响,并提出了平衡交叉模态影响以实现更好精度的方法。通过提出的 CNN 架构,达到了在 NYU-Depth v2 基准测试中,同时提高深度估计和语义标记的结果的目的。
Feb, 2017
本论文研究了使用单目全向视角图进行深度估计的问题,提出了一种基于混合 CNN 和 Transformer 的 HiMODE 深度估计模型,该模型可以很好地恢复小目标细节,避免由于获取地面实际深度图时可能出现的数据损失问题,并且具有更高的计算效率和更好的视觉效果。
Apr, 2022