融合深度变换网络与加权向量关键点投票的鲁棒性 6D 物体姿态估计
本文提出了一种基于数据驱动的方法,使用关键点检测和 Hough 投票网络,实现了从单个 RGBD 图像稳健地估算 6DoF 物体姿态,并在多个基准测试中表现出色。
Nov, 2019
本文提出了 DenseFusion 框架,使用异构网络结构从 RGB-D 图像中估计已知物体的 6D 位姿,并通过端对端迭代位姿细化进一步提高了姿态估计的精度和实时性。实验结果表明,我们的方法在 YCB-Video 和 LineMOD 数据集上优于现有方法,并在实际机器人应用中实现了对物体的抓取和操作。
Jan, 2019
提出了一种名为 MV6D 的多视角 6D 姿态估计方法,该方法使用多个视角的 RGB-D 图像,通过 DenseFusion 层融合每个视角的图像,可以精确预测杂乱场景中所有对象的 6D 姿态.
Aug, 2022
该研究提出了一种改进的基于 Transformer 的 6D 位姿估计方法 TransPose,它利用 RGB 图片作为输入,结合轻量级深度估计网络和变压器检测网络,并通过深度细化模块对位姿进行精度优化,在果树采摘应用方面取得了优于其他现有方法的效果。
Jul, 2023
TransPose 是一个利用 Transformer 编码器和几何感知模块的 6D 姿态框架,用于提取和利用深度信息中的几何特征,以实现更准确的预测。通过统一采样点云,并借助设计的局部特征提取器和图卷积网络提取局部几何特征;采用 Transformer 进行全局信息交换,使每个局部特征包含全局信息;最后,在 Transformer 编码器中引入几何感知模块,为点云特征学习提供有效约束,并使全局信息交换与点云任务更加紧密结合。实验结果表明,通过 TransPose 的 6D 姿态估计管道在三个基准数据集上取得了有竞争力的结果。
Oct, 2023
本文介绍了 FFB6D,一种适用于从单一 RGBD 图像中估计 6D 姿态的全流双向融合网络,利用 RGB 图像的外观信息和深度图像的几何信息进行表示学习和输出表示选择,在几个基准测试中超过了现有技术。
Mar, 2021
该研究论文提出了一种可应用于多视角 3D 姿态估计中的变换器框架,该框架可以直接整合来自不同视角的信息,以改善 2D 预测器的性能。同时,研究人员还提出了一个名为 Epipolar field 的概念,它可以将 3D 位置信息编码到变换器模型中。实验证明,该方法更加高效,与其他融合方法相比有一致的改进。
Oct, 2021
该论文介绍了一种新的对物体进行 6D 姿态估计的方法,其中使用了多视角深度网络、预定义关键点、实例语义分割等技术,特别考虑了对称物体的问题,相对于现有技术有很大的提升。
Jul, 2023
本文提出了一种基于像素准确度的向量回归方法来精确估计单个 RGB 图像中物体的 6 自由度位姿,并使用 RANSAC 通过向量投票来有效地处理遮挡和截断问题,该方法的实验证明在 LINEMOD,Occlusion LINEMOD 和 YCB-Video 数据集上优于现有的方法,并且具有实时检测的高效性。
Dec, 2018
本文介绍了一种利用深度神经网络复制传统的 local depth maps calculation 和 global depth maps fusion 两步骤框架,以改善对 3D 场景重建精度和可解释性的计算机视觉任务方法。此外,作者还提出了一种称为 PosedConv 的旋转不变的 3D 卷积核,用于提高从非常不同视角获取的图像之间的匹配效率。作者在 ScanNet 数据集上进行了大量实验证明提出的方法在深度神经网络和传统计算机视觉技术中具有竞争力。
Aug, 2021