从 RGB-D 图像推断三维物体姿态
通过深度卷积神经网络实现室内场景理解的任务。为了克服 RGB-D 训练数据不足的问题,采用实时渲染技术生成合成室内场景,并通过迁移学习的方式使得模型能够处理具有高度挑战性的真实场景。该神经网络具备较短的运行时间,可同时估计类别、姿态和位置等参数。
Aug, 2015
本文介绍了一种名为 Deep-6DPose 的端到端深度学习框架,可以从单个 RGB 图像中同时检测、分割并恢复目标实例的 6D 姿态。实验表明,Deep-6DPose 比目前基于 RGB 的多阶段姿态估计方法更快,并且在标准的姿态基准数据集上显示出与现有方法相当的好的效果。
Feb, 2018
本文介绍了一种用于三维目标姿态估计的新方法,将 RGB 图像与 CAD 模型匹配以实现目标姿态估计,通过学习选择关键点并保持视角和模态不变性的目标,消除了对昂贵的三维姿态注释的需求,并通过大量实验证明了该方法能够可靠地估计 RGB 图像中的目标姿态以及推广到训练期间未看到的目标实例。
Nov, 2018
该论文提出了一种从单个 RGB 图像中估计物体连续 6-DoF 姿态的方法,该方法结合了经卷积网络预测的语义关键点和可变形的形状模型,同时采用了半自动数据生成技术来训练可学习组件,在实验中该方法达到了与现有技术相当的结果。
Apr, 2022
本文提出了一种可扩展,高效和准确的方法,用于检索野外对象的 3D 模型,包括了 3D 姿态估计,使用姿态先验来检索 3D 模型,使用基于 CNN 的多视图度量学习方法从 RGB 图像中检索图像描述符与采用的渲染深度图像匹配的深度图像得出精准的 3D 模型,报告了 Pascal3D + 上 3D 模型的定量结果。
Mar, 2018
该论文提出了一种单次操作的方法,可以在不需要多个阶段或检查多个假设的同时,在 RGB 图像中检测对象并预测其 6D 姿态。通过采用新的 CNN 架构和 PnP 算法,该方法可以以 50fps 的速度在 Titan X GPU 上运行,比其他最近的 CNN 方法具有更高的准确性和更适合实时处理。
Nov, 2017
本文提出了一种基于 RGBD 图像的 3D 犬姿态估计方法,利用运动捕捉系统录制大量犬只的运动并生成数据集,使用堆叠沙漏网络进行 3D 关节点定位并结合形态和姿态的先验模型。我们在合成和实际 RGBD 图像上评估了模型,并将结果与以前发表的相关工作进行了比较。
Apr, 2020
使用无监督学习的方法进行单眼 RGB 数据下的 6D 物体位姿估计,作者训练了一个神经网络模型,通过真实 RGB-D 数据的自监督模式来提高模型的性能表现,并证明了该方法能够显著地优化模型的性能,超过了其他使用合成数据或领域适应技术的方法。
Apr, 2020
本文提出一种基于分割的 6D 姿态估计框架,使用关键点检测获取局部姿态预测,并根据置信度预测将这些姿态候选融合成可靠的 3D-to-2D 对应关系,从而在多个低纹理物体相互遮挡的情况下获得最优姿态估计,其采用简单且高效的架构实现实时性能。
Dec, 2018
该研究提出了一种基于卷积神经网络(CNN)的后验概率密度的学习比较方法,可以更准确地进行物体的 6D 位姿估计。经过实验证明,相比于现有技术,在不同场景下且包括不同形状和外观的 11 个物体的多个数据集中,具有显著的性能提升。
Aug, 2015