Pix2Pose:用于物体 6D 姿态估计的像素级坐标回归
本文介绍了一种新的姿态估计算法 W-PoseNet,可以从输入数据中密集地回归出 6D 姿态和模型空间中的 3D 坐标。本文中提出的 W-PoseNet 相对于现有算法在 YCB-Video 和 LineMOD 等基准测试中表现出更高明显的优势。
Dec, 2019
通过使用编码器 - 解码器网络以及 PnP-RANSAC 算法,估算单张 3D 模型可得的 RGB 输入图像中刚性对象的 6D 位姿,对具有全局或部分对称性的挑战性物体采用紧凑表面片段进行表示。
Apr, 2020
本文提出了一种新颖的流程,通过解耦 6D 姿态和尺寸估计,减轻了单目观察带来的尺度不精确对刚性变换的影响,并借助预训练的单目估计器获取局部几何信息,以便搜寻二维 - 三维对应关系,并利用基于类别级统计的独立分支直接恢复物体的度量尺度,最后倡导使用 RANSAC-P$n$P 算法鲁棒求解 6D 物体姿态。在合成和真实数据集上进行了大量实验证明,相对于先前最先进的基于 RGB 的方法,我们的方法在旋转准确性方面表现出更高的性能。
Sep, 2023
我们提出了一种基于实时 RGB 的管道来实现物体检测和六自由度姿态估计。我们的创新性三维方向估计基于域随机化训练的三维模型的模拟视图,采用了变体的降噪自编码器。我们称之为增强自编码器相较于现有方法具有多个优点:它不需要真实标注的训练数据,适用于各种测试传感器,固有的处理物体和视角对称性。我们提出了一种隐式表征物体方向的方法,定义了潜在空间内的样本,而不是学习从输入图像到对象姿态的显式映射。我们的管道在 T-LESS 数据集的 RGB 和 RGB-D 领域均取得了最新成果。我们还在 LineMOD 数据集上进行评估,其中我们可以与其他合成训练方法竞争。当物体偏离图像中心时,通过纠正三维方向估计来进一步提高性能,并展示了扩展结果。
Feb, 2019
本文提出了一种名为 SO-Pose 的框架,通过自遮挡推理和建立一个两层的 3D 物体表示,增强了端到端 6D 位姿估计的精度,该框架以单个 RGB 图像作为输入并同时生成 2D-3D 对应和自遮挡信息,融合这两个信息直接回归 6DoF 姿态参数,通过跨层次的一致性对齐对应、自遮挡和 6D 姿态,进一步提高了准确性和鲁棒性,在各种具有挑战性的数据集上超过或与所有其他最先进的方法相媲美。
Aug, 2021
TransPose 是一个利用 Transformer 编码器和几何感知模块的 6D 姿态框架,用于提取和利用深度信息中的几何特征,以实现更准确的预测。通过统一采样点云,并借助设计的局部特征提取器和图卷积网络提取局部几何特征;采用 Transformer 进行全局信息交换,使每个局部特征包含全局信息;最后,在 Transformer 编码器中引入几何感知模块,为点云特征学习提供有效约束,并使全局信息交换与点云任务更加紧密结合。实验结果表明,通过 TransPose 的 6D 姿态估计管道在三个基准数据集上取得了有竞争力的结果。
Oct, 2023
本文提出一种基于分割的 6D 姿态估计框架,使用关键点检测获取局部姿态预测,并根据置信度预测将这些姿态候选融合成可靠的 3D-to-2D 对应关系,从而在多个低纹理物体相互遮挡的情况下获得最优姿态估计,其采用简单且高效的架构实现实时性能。
Dec, 2018
本研究利用深度神经网络进行对物体在已知场景下的姿态估计,其中提出了使用场景无关的神经网络模型 PixLoc,通过特征学习和度量学习方法将相机定位问题转换为多尺度特征直接对齐,该模型以像素数据作为输入并经过端到端训练后能够在大型环境中实现定位,同时通过精确的稀疏特征匹配以更小的代价实现关键点和姿态的联合优化。
Mar, 2021
无需辅助信息,我们提出了一种使用纯 RGB 图像进行训练的 6D 物体姿态估计方法,通过利用来自多个不同视角的合成至实图像对中的几何约束(以像素级流一致性的形式表示)进行精化策略,从合成图像中获得初始姿态估计,并使用动态生成的伪标签。在三个具有挑战性的数据集上进行评估,结果表明我们的方法明显优于最先进的自监督方法,无需 2D 注释或额外的深度图像。
Aug, 2023