基于深度模型的 RGB 图像中的 6D 姿态细化

Oct, 2018

基于深度模型的 RGB 图像中的 6D 姿态细化

Deep Model-Based 6D Pose Refinement in RGB

Fabian Manhardt, Wadim Kehl, Nassir Navab, Federico Tombari

TL;DR本研究提出了一种基于深度神经网络的视觉损失函数，通过对凸形物体外轮廓的对齐来驱动位姿更新进行模型为 6D 姿态精修的处理，方法无需确定外观模型、免除了手动图像分割、同时能够处理遮挡问题和几何不对称性与视觉模糊问题，并且能够在没有深度数据的情况下准确地估算物体位姿。

Abstract

We present a novel approach for model-based 6d pose refinement in color data. Building on the established idea of contour-based pose tracking, we teach a →

6d pose refinement deep neural network contour-based pose tracking visual loss synthetic data

发现论文，激发创造

Deep-6DPose：从单个 RGB 图像中恢复 6D 物体姿态

本文介绍了一种名为 Deep-6DPose 的端到端深度学习框架，可以从单个 RGB 图像中同时检测、分割并恢复目标实例的 6D 姿态。实验表明，Deep-6DPose 比目前基于 RGB 的多阶段姿态估计方法更快，并且在标准的姿态基准数据集上显示出与现有方法相当的好的效果。

Feb, 2018

TransPose: 一个基于 Transformer 的六自由度物体姿态估计网络与深度修正

该研究提出了一种改进的基于 Transformer 的 6D 位姿估计方法 TransPose，它利用 RGB 图片作为输入，结合轻量级深度估计网络和变压器检测网络，并通过深度细化模块对位姿进行精度优化，在果树采摘应用方面取得了优于其他现有方法的效果。

Jul, 2023

通过点云的监督学习实现 6D 物体姿态回归

本文提出了一种利用点云深度信息并结合卷积神经网络和几何姿态优化，分别使用旋转和平移回归网络的方法来估算已知 3D 物体的 6 自由度姿态，其中通过旋转轴角表示旋转并使用测地线损失函数进行回归，实验结果在 YCB-video 数据集上明显优于现有方法。

Jan, 2020

从 RGB-D 图像推断三维物体姿态

该研究旨在使用卷积神经网络检测和定位 RGB-D 场景中的物体，然后使用 3D 模型替换它们，相对于目前最先进的算法，该方法在 3D 检测任务中表现出 48％的相对改进，并且速度更快。

Feb, 2015

DPOD：6D 姿态物体检测器和细化器

本文介绍了一种能够从 RGB 图像中检测三维物体和估计六自由度姿态的新型深度学习方法，称为 DPOD。该方法估计输入图像和可用的三维模型之间的密集多类二维三维对应关系图，通过 PnP 和 RANSAC 计算六自由度姿态，并使用基于深度学习的自定义方案对初始姿态估计进行了 RGB 姿态优化。与其他主要使用真实数据进行训练且不对合成渲染进行训练的方法不同，我们对合成数据和真实训练数据进行评估，显示出在所有最近的检测器中，此方法无论先前和后面都能够获得优异的结果。虽然具有精度，但本方法仍然具有实时性能。

Feb, 2019

PFRL: 无需姿态信息的强化学习在 6D 姿态估计中的应用

通过强化学习，使用 2D 图像注释作为微弱监督的 6D 姿态信息，我们构建了一个无需真实世界 6D 标签的 6D 姿态微调模型，从而实现了优化姿态模型的有效方法。

Feb, 2021

6D 多目标姿态估计的耦合迭代优化

提出了一种基于几何知识的端到端可微建构的方法，通过 BD-PnP 优化问题迭代地细化姿态估计和对应关系，并动态地删除离群值以提高准确性，从而在标准的 6D 物体姿态基准测试上实现了最新的准确性。

Apr, 2022

单幅 RGB 帧的基于语义关键点的姿态估算

该论文提出了一种从单个 RGB 图像中估计物体连续 6-DoF 姿态的方法，该方法结合了经卷积网络预测的语义关键点和可变形的形状模型，同时采用了半自动数据生成技术来训练可学习组件，在实验中该方法达到了与现有技术相当的结果。

Apr, 2022

使用合成数据校准图像残留值实现基于数据的 6D 位姿跟踪

该研究提出了一种基于数据驱动的优化方法，用于长期跟踪 6D 姿态，通过使用新颖的神经网络架构和有效的 Lie 代数 3D 方向表示法，可以同时减少域偏移，实现在虚拟数据集和真实图像上的更好表现。

Jul, 2020

使用在合成 RGB-D 上训练的深度网络实现语义姿态

通过深度卷积神经网络实现室内场景理解的任务。为了克服 RGB-D 训练数据不足的问题，采用实时渲染技术生成合成室内场景，并通过迁移学习的方式使得模型能够处理具有高度挑战性的真实场景。该神经网络具备较短的运行时间，可同时估计类别、姿态和位置等参数。

Aug, 2015