MFOS: 无模型且一次性物体姿态估计

Oct, 2023

MFOS: 无模型且一次性物体姿态估计

MFOS: Model-Free & One-Shot Object Pose Estimation

JongMin Lee, Yohann Cabon, Romain Brégier, Sungjoo Yoo, Jerome Revaud

TL;DR提出了一种基于 Transformer 架构的新颖方法，用于在训练期从最少的输入中估计从未在训练中见过的物体的姿态，并在困难的 LINEMOD 基准测试中实现了最新的一次性表现。

Abstract

Existing learning-based methods for object pose estimation in rgb images are mostly model-specific or category based. They lack the capability to generalize to new object categories at test time, hence severely h

object pose estimation rgb images generalization transformer architecture linemod benchmark

发现论文，激发创造

OnePose：无 CAD 模型一次性物体姿态估计

本文提出了一种名为 OnePose 的新方法，可以在没有 CAD 模型的情况下对任意类别的物体进行物体姿态估计，利用视觉定位和图形注意力网络结合进行 2D 和 3D 特征匹配，结合基于特征的姿势跟踪器，可以实现对日常家用物品 6D 姿态的实时稳定检测和跟踪。

May, 2022

通过深度特征匹配进行一次性 6D 物体姿态估计的 PoseMatcher

本文提出了一种基于 three-view 系统的 PoseMatcher 模型来进行精确的无模型一次性物体位姿估计，同时引入了 IO-Layer 进行有效信息的交叉注意力，还设计了对象点云下的基于数字图像处理的目标选取和定位算法。实验结果证明该方法在 Linemod 和 YCB-V 数据集上表现优异。

Apr, 2023

OSOP: 多阶段一次拍摄物体姿态估计框架

提出一种新颖的对象检测和 6 自由度姿态估计一次性方法，无需对目标对象进行训练，通过 2D-3D 对应估计物体姿态

Mar, 2022

PFRL: 无需姿态信息的强化学习在 6D 姿态估计中的应用

通过强化学习，使用 2D 图像注释作为微弱监督的 6D 姿态信息，我们构建了一个无需真实世界 6D 标签的 6D 姿态微调模型，从而实现了优化姿态模型的有效方法。

Feb, 2021

单幅 RGB 帧的基于语义关键点的姿态估算

该论文提出了一种从单个 RGB 图像中估计物体连续 6-DoF 姿态的方法，该方法结合了经卷积网络预测的语义关键点和可变形的形状模型，同时采用了半自动数据生成技术来训练可学习组件，在实验中该方法达到了与现有技术相当的结果。

Apr, 2022

6D 物体位姿估计结合零样本学习

提出了一种名为 PoMZ 的新方法，通过融合预训练的几何和图像模型，实现了零样本物体 6D 位姿估计的最新进展，该方法无需任务特定的微调，在 BOP 基准测试中在无法见到的物体的 6D 定位领域取得了第一名。

Dec, 2023

ZS6D: 使用视觉变换器进行零样本 6D 物体姿态估计

通过使用预训练的 Vision Transformers（ViT）提取的视觉描述符，我们引入了 ZS6D 方法，用于零样本新目标 6D 姿态估计，该方法在众多最新的姿态估计方法上表现卓越，无需进行特定任务的微调。我们在 LMO、YCBV 和 TLESS 等三个数据集上进行了实验，并与两种方法进行了比较，结果在所有三个数据集上相较于其中一种方法有显著提升，在两个数据集上相较于另一种方法有提升。

Sep, 2023

基于 3D 模型的零样本姿态估计流水线

本文介绍一个新的零样本视角估计管道，主要基于 3D 模型的零样本实例分割和零样本姿态估计。实验结果表明，该方法在速度和计算成本方面优于当前零样本状态的最佳方法。

May, 2023

跨域对象姿态估计的多路径学习

提出了一种可扩展的对象姿态估计方法，使用多个三维模型的模拟 RGB 视图进行训练，并使用所谓的 “多路径学习” 技术，涉及共享编码器和不同解码器，从而实现对不同实例的通用编码器的训练。在多个数据集上实现了最先进的 6D 目标检测结果。

Aug, 2019

多视角多类别物体姿态估计的统一框架

本文介绍了一种基于深度卷积神经网络的方法，能够通过对特定对象类的分类和姿态回归，从单个或多视图中准确地推断大量对象类的六自由度姿态，并通过 SE（3）的均匀镶嵌提高了鲁棒性。作者还提出了一种适用于单视角存在歧义的高效多视图框架，并在 YCB-Video、JHUScene-50 和 ObjectNet-3D 三个大规模基准测试中取得了优异的表现，与目前现有技术相比表现优秀。

Mar, 2018