融合深度变换网络与加权向量关键点投票的鲁棒性 6D 物体姿态估计

ICCVAug, 2023

融合深度变换网络与加权向量关键点投票的鲁棒性 6D 物体姿态估计

Deep Fusion Transformer Network with Weighted Vector-Wise Keypoints Voting for Robust 6D Object Pose Estimation

Jun Zhou, Kai Chen, Linlin Xu, Qi Dou, Jing Qin

TL;DR通过提出的全新深度融合转换块 (DFTr)，结合了全局增强特征提取和语义相似性建模的算法进行一张 RGBD 图像的 6D 物体姿态估计。此外，还引入了一种新颖的加权矢量投票算法，实现了非迭代的全局优化策略，以精确定位三维关键点，并实现接近实时的推断，实验证明该方法在多个基准测试中优于现有方法。

Abstract

One critical challenge in 6d object pose estimation from a single rgbd image is efficient integration of two different modalities, i.e., color and depth. In this work, we tackle this problem by a novel

6d object pose estimation rgbd image deep fusion transformer cross-modality 3d keypoint voting

发现论文，激发创造

PVN3D：一种深度点间 3D 关键点投票网络用于 6DoF 姿态估计

本文提出了一种基于数据驱动的方法，使用关键点检测和 Hough 投票网络，实现了从单个 RGBD 图像稳健地估算 6DoF 物体姿态，并在多个基准测试中表现出色。

Nov, 2019

密集融合：通过迭代密集融合实现 6D 物体姿态估计

本文提出了 DenseFusion 框架，使用异构网络结构从 RGB-D 图像中估计已知物体的 6D 位姿，并通过端对端迭代位姿细化进一步提高了姿态估计的精度和实时性。实验结果表明，我们的方法在 YCB-Video 和 LineMOD 数据集上优于现有方法，并在实际机器人应用中实现了对物体的抓取和操作。

Jan, 2019

MV6D: 使用深度点投票网络的 RGB-D 框架多视角 6D 位姿估计

提出了一种名为 MV6D 的多视角 6D 姿态估计方法，该方法使用多个视角的 RGB-D 图像，通过 DenseFusion 层融合每个视角的图像，可以精确预测杂乱场景中所有对象的 6D 姿态.

Aug, 2022

TransPose: 一个基于 Transformer 的六自由度物体姿态估计网络与深度修正

该研究提出了一种改进的基于 Transformer 的 6D 位姿估计方法 TransPose，它利用 RGB 图片作为输入，结合轻量级深度估计网络和变压器检测网络，并通过深度细化模块对位姿进行精度优化，在果树采摘应用方面取得了优于其他现有方法的效果。

Jul, 2023

TransPose：基于几何感知的 Transformer 的 6D 物体姿态估计

TransPose 是一个利用 Transformer 编码器和几何感知模块的 6D 姿态框架，用于提取和利用深度信息中的几何特征，以实现更准确的预测。通过统一采样点云，并借助设计的局部特征提取器和图卷积网络提取局部几何特征；采用 Transformer 进行全局信息交换，使每个局部特征包含全局信息；最后，在 Transformer 编码器中引入几何感知模块，为点云特征学习提供有效约束，并使全局信息交换与点云任务更加紧密结合。实验结果表明，通过 TransPose 的 6D 姿态估计管道在三个基准数据集上取得了有竞争力的结果。

Oct, 2023

FFB6D：一种全流双向融合网络用于 6D 姿态估计

本文介绍了 FFB6D，一种适用于从单一 RGBD 图像中估计 6D 姿态的全流双向融合网络，利用 RGB 图像的外观信息和深度图像的几何信息进行表示学习和输出表示选择，在几个基准测试中超过了现有技术。

Mar, 2021

TransFusion：基于 Transformer 的跨视角三维人体姿态融合估计

该研究论文提出了一种可应用于多视角 3D 姿态估计中的变换器框架，该框架可以直接整合来自不同视角的信息，以改善 2D 预测器的性能。同时，研究人员还提出了一个名为 Epipolar field 的概念，它可以将 3D 位置信息编码到变换器模型中。实验证明，该方法更加高效，与其他融合方法相比有一致的改进。

Oct, 2021

SyMFM6D：针对多视角 6D 物体姿态估计的对称感知多方向融合

该论文介绍了一种新的对物体进行 6D 姿态估计的方法，其中使用了多视角深度网络、预定义关键点、实例语义分割等技术，特别考虑了对称物体的问题，相对于现有技术有很大的提升。

Jul, 2023

PVNet: 用于 6DoF 位姿估计的像素级投票网络

本文提出了一种基于像素准确度的向量回归方法来精确估计单个 RGB 图像中物体的 6 自由度位姿，并使用 RANSAC 通过向量投票来有效地处理遮挡和截断问题，该方法的实验证明在 LINEMOD，Occlusion LINEMOD 和 YCB-Video 数据集上优于现有的方法，并且具有实时检测的高效性。

Dec, 2018

VolumeFusion：基于深度学习的三维场景重建深度融合技术

本文介绍了一种利用深度神经网络复制传统的 local depth maps calculation 和 global depth maps fusion 两步骤框架，以改善对 3D 场景重建精度和可解释性的计算机视觉任务方法。此外，作者还提出了一种称为 PosedConv 的旋转不变的 3D 卷积核，用于提高从非常不同视角获取的图像之间的匹配效率。作者在 ScanNet 数据集上进行了大量实验证明提出的方法在深度神经网络和传统计算机视觉技术中具有竞争力。

Aug, 2021