6D 物体姿态估计的形状约束递归流

CVPRJun, 2023

6D 物体姿态估计的形状约束递归流

Shape-Constraint Recurrent Flow for 6D Object Pose Estimation

Yang Hai, Rui Song, Jiaojiao Li, Yinlin Hu

TL;DR我们提出了一种基于形状约束的循环匹配框架，利用姿态引起的流来构造相关图，并使用网络来学习物体姿态，优化光流和物体姿态，取得了比现有技术显著更高的准确性和效率。

Abstract

Most recent 6d object pose methods use 2D optical flow to refine their results. However, the general optical flow methods typically do not

6d object pose optical flow matching framework 3d shape information pose-induced flow

发现论文，激发创造

GenFlow: 适用于新颖物体 6D 姿势细化的通用循环流

GenFlow 通过引导目标物体的形状信息，实现了对新物体的精确性和泛化能力的最佳结合。通过预测渲染图像与观察图像之间的光流并迭代优化 6D 姿态，通过三维形状限制和从端到端可微分系统中学习的通用几何知识，性能得到了提升。通过设计级联网络体系结构来利用多尺度相关性和从粗到细的精化，GenFlow 在既有 RGB 和 RGB-D 情况下在看不见的物体姿态估计基准测试中排名第一，在已知物体姿态估计中也能与现有最先进的方法相当。

Mar, 2024

自监督 6D 物体姿态估计中的伪流一致性

无需辅助信息，我们提出了一种使用纯 RGB 图像进行训练的 6D 物体姿态估计方法，通过利用来自多个不同视角的合成至实图像对中的几何约束（以像素级流一致性的形式表示）进行精化策略，从合成图像中获得初始姿态估计，并使用动态生成的伪标签。在三个具有挑战性的数据集上进行评估，结果表明我们的方法明显优于最先进的自监督方法，无需 2D 注释或额外的深度图像。

Aug, 2023

透视流聚合用于数据受限的 6D 物体姿态估计

本文提出了一种基于合成图像或少量真实图像训练的 6D 物体位姿估计方法，使用第一网络获得粗略姿态估计后，使用第二网络预测精细的二维对应场，并推断所需的姿态纠正，该方法在显著减少合成图像与真实图像领域差异的情况下具有与需要标注真实图像训练的方法相当的性能，而在使用 20 张真实图像时，它的性能明显优于它们。

Mar, 2022

单阶段 6D 物体位姿估计

本文介绍了一种基于深度学习的 6D 姿态估计架构，能够直接从对应点回归 6D 姿态，并提出了单阶段 6D 姿态估计框架，能够在准确性和速度方面显著优于现有的双阶段框架。

Nov, 2019

基于分割的 6D 物体姿态估计

本文提出一种基于分割的 6D 姿态估计框架，使用关键点检测获取局部姿态预测，并根据置信度预测将这些姿态候选融合成可靠的 3D-to-2D 对应关系，从而在多个低纹理物体相互遮挡的情况下获得最优姿态估计，其采用简单且高效的架构实现实时性能。

Dec, 2018

从立体视频中学习残差流作为动态运动

通过无监督学习框架，我们提出了一种将运动立体相机观察到的 3D 场景流分解为静止场景元素和动态物体运动的方法。我们利用三个协同工作的网络来预测立体匹配、相机运动和残留流，并明确估计基于残留流和场景深度的动态物体的 3D 场景流。在 KITTI 数据集上的实验表明，我们的方法在光流和视觉里程计任务上优于其他现有算法。

Sep, 2019

通过 3D 模型估计跟踪未知视频对象

本文提出一种新的方法，在视觉目标追踪方面通过 3D 形态和位姿表达，结合可微分渲染技术优化一个新型的损失函数，取得了在三个数据集上追踪刚性物体方面的最新进展。

Apr, 2023

单幅 RGB 帧的基于语义关键点的姿态估算

该论文提出了一种从单个 RGB 图像中估计物体连续 6-DoF 姿态的方法，该方法结合了经卷积网络预测的语义关键点和可变形的形状模型，同时采用了半自动数据生成技术来训练可学习组件，在实验中该方法达到了与现有技术相当的结果。

Apr, 2022

重新思考几何匹配一致透视的光流

本研究提出了一种基于深度学习和几何图像匹配的光学流估计方法 MatchFlow，通过先使用几何图像匹配（GIM）作为预训练任务，再进行光流估计，从而提高了图像特征的匹配性能，实验结果表明该模型性能优异，相较于已发表的方法，拥有最优的表现。

Mar, 2023

密集融合：通过迭代密集融合实现 6D 物体姿态估计

本文提出了 DenseFusion 框架，使用异构网络结构从 RGB-D 图像中估计已知物体的 6D 位姿，并通过端对端迭代位姿细化进一步提高了姿态估计的精度和实时性。实验结果表明，我们的方法在 YCB-Video 和 LineMOD 数据集上优于现有方法，并在实际机器人应用中实现了对物体的抓取和操作。

Jan, 2019