基于 RGB-D 和惯性场景流的相机运动估计
本研究提出了一种基于深度学习的模型,用于估计连续 RGB-D 图像之间的场景流,可以将场景分成多个刚体运动的对象,利用编码和解码阶段,得到了像素级目标中心、运动和旋转估计,并在大规模合成和真实数据集上测试了模型性能。
Apr, 2018
本文提出在监督学习的基础上通过学习场景的刚性结构,从两张图片中推断场景对于相机的运动以及产生的 3D 场景流结构,相比于其他 3D 场景流预测方法表现更佳,并提供了半合成动态场景数据集和评估拆分。
Apr, 2018
通过使用深度神经网络,并在不同的网络级别中应用自注意力机制以及交叉注意力机制,我们提出了一种名为 FusionRAFT 的方法,实现了早期传感器模态(RGB 和深度)之间的信息融合,以解决 RGB 信息不可靠的问题,在主动配准中取得了比最近方法更好的性能。
Jul, 2023
通过无监督学习框架,我们提出了一种将运动立体相机观察到的 3D 场景流分解为静止场景元素和动态物体运动的方法。我们利用三个协同工作的网络来预测立体匹配、相机运动和残留流,并明确估计基于残留流和场景深度的动态物体的 3D 场景流。在 KITTI 数据集上的实验表明,我们的方法在光流和视觉里程计任务上优于其他现有算法。
Sep, 2019
本研究提出了一种新的多帧场景流计算方法,包括景深和光流以及相机自运动,同时从移动立体相机中观察动态场景,并将移动对象与固定场景分割开来。该技术在立体匹配和视觉里程计中使用独特的策略,融合移动目标的光流信息和相机基于运动流的信息来提高场景深度和相机自运动估计的精度和效率。
Jul, 2017
研究使用光流残差技术实现动态语义感知的 RGB-D 环境下的 SLAM,同时实现动静分割、相机运动估计和静态背景重建。实验证明该方法在动态和静态环境中都比现有的方法具有更高的精度和效率。
Mar, 2020
本文提出了一种新的方法,使用注意力机制有效地考虑 RGB 和深度之间的相关性,探索了用于确保 RGB 和深度之间有效信息流的内部和交叉相关模块的有效融合策略。实验结果表明,该方法在对象姿态估计方面的表现优于现有方法,并证明了该方法可以为真实世界的机器人抓取任务提供准确的物体姿态估计。
Sep, 2019
本文提出了一种新颖且数据驱动的方法,利用智能手机中的惯性测量单元(IMU)学习估算自然人类运动轨迹。通过回归速率向量,通过历史线性加速度和角速度,纠正低频偏差,对估算位置进行两次积分,从而实现了人体运动的准确估算。此外,文中还展示了该算法与视觉惯性导航的可比性,并公开了代码和数据以便进一步研究。
Dec, 2017
本文提出了 DenseFusion 框架,使用异构网络结构从 RGB-D 图像中估计已知物体的 6D 位姿,并通过端对端迭代位姿细化进一步提高了姿态估计的精度和实时性。实验结果表明,我们的方法在 YCB-Video 和 LineMOD 数据集上优于现有方法,并在实际机器人应用中实现了对物体的抓取和操作。
Jan, 2019
本文提出了一种实时动态场景重构方法,能够在给定单个 RGB-D 相机的实时深度流情况下同时再现运动、几何和分割。我们的方法通过融合几何逐帧进行处理,并使用分割增强的节点图结构来驱动几何变形。我们提出了一种二级节点运动优化方法,并通过利用关节运动先验知识来大大减少节点运动的优化空间和物理合理的变形范围。与之前基于融合的动态场景重构方法相比,我们的实验表明,我们的方法对于切向运动和遮挡的运动都具有鲁棒性和改进的重建结果。
Jul, 2018