Mono-hydra: 单目相机输入与 IMU 实时构建的三维场景图
本文介绍了一种用于无人机的新型实时单目视觉里程计模型,使用了深度神经网络架构和自注意力模块,能够通过连续视频帧估计相机的自身运动,进而估计无人机的轨迹。该模型在两个视觉里程计数据集上测试,收敛速度比之前的循环神经网络模型快 48%,并且平均平移漂移减少了 22%,平均平移绝对轨迹误差改善了 12%,表现出更强的抗噪能力。
Apr, 2024
通过研究路面对 3D 检测提供的额外信息,提出了一种嵌入式神经网络,能够充分利用这些应用程序特定的先验知识,从而实现使用单个 RGB 摄像机确定环境中对象的位置和方向的三维目标检测。
Feb, 2021
该文章介绍了一种名为 DeepVIO 的自监督深度学习网络,通过直接合并 2D 光流特征(OFF)和惯性测量单元(IMU)数据,提供绝对轨迹估计,实验结果表明其在准确性和数据可适应性方面优于传统的基于 Deep-Learning 方法。
Jun, 2019
我们提出了一种用于捕捉人类和物体的三维运动的单目方案,结合通用动作推断和基于类别的运动扩散模型,在使用极少量的 RGB 相机和物体安装的惯性测量单元(IMU)的新颖环境中,通过综合处理 IMU 信号和 RGB 流重新恢复人体运动和物体运动,从而大幅度提炼初始结果并生成生动的身体、手部和物体运动。
Dec, 2023
本研究提出了一种名为 HybridCap 的轻量级、混合的 3D 运动捕捉技术,通过仅使用 4 个惯性测量单元的传感器,加上基于合作式门控循环单元块的层次运动推理模块和混合优化方案,可以实现对各种运动的鲁棒跟踪。
Mar, 2022
基于立体视觉、机器人和机器学习的监控系统,通过云服务器和互联网设备,实时跟踪和监测移动物体和人脸等特定目标,提供给用户具有立体感的第一人称实时 3D 体验。
Jun, 2024
我们提出了一个新的框架(Real-time Optimization and Fusion,RTOF),通过将稀疏惯性方向信息与参数化的人体骨骼结构相结合,优化并融合视觉和惯性观测数据,从而实现对时态三维人体姿势的准确估计和干扰问题的解决,提供平滑及生物力学合理的人体动作估计结果,并通过全面实验与消融研究验证了其合理性和效率。
Apr, 2024
这篇论文介绍了一种新型的 3D 动态场景图,称为 DSG,以捕捉动态环境的度量和语义方面,同时提供了一种全自动构建 DSG 的方法 Kimera,并且在实时的语境下,实现了基于 DSG 的层次化语义路径规划。
Jan, 2021
通过双视图检测系统 DVDET,提出了一种基于地理变形的训练模块,实现了 2D 图像空间和 3D 物理空间的空中单目物体检测,并利用新的数据集 AM3D,证明了模型的可行性及性能。
Aug, 2022
本研究介绍了一种无监督深度神经网络方法,用于融合 RGB-D 图像和惯性测量进行绝对轨迹估计。我们的网络在没有 IMU 固有参数或 IMU 与相机之间的外部校准的情况下进行学习,学习整合 IMU 测量并生成假设轨迹,然后根据空间像素坐标的缩放图像投影误差的雅可比矩阵进行在线更正。在 KITTI Odometry 数据集上与最先进的视觉惯性测距,视觉测距和视觉同时定位和地图构建(VSLAM)方法进行了比较,表现出有竞争力的测距性能。
Mar, 2018