细粒度物体类别的三维姿态估计

ECCVJun, 2018

3D Pose Estimation for Fine-Grained Object Categories

Yaming Wang, Xiao Tan, Yi Yang, Xiao Liu, Errui Ding...

TL;DR本文介绍了一种针对细分类别的物体姿态估计的新数据集以及一种基于 Faster/Mask R-CNN 模型的姿态估计框架，同时使用了 3D CAD 模型和 location field 来提高性能。

Abstract

Existing object pose estimation datasets are related to generic object types and there is so far no dataset for fine-grained object categories. In this work, we introduce a new large dataset to benchmark pose estimation for →

object pose estimation fine-grained objects 3d cad models faster/mask r-cnn location field

发现论文，激发创造

基于合成数据的鲁棒性类别层次 3D 姿态估计

本篇论文提出 SyntheticP3D 数据集和 CC3D 方法，结合这两种方法可以实现在只用 10% 的真实数据的情况下，与当前最先进的模型在物体位姿估计方面取得了可与之媲美结果，在采用 50% 的真实数据时还超越了 SOTA 模型 10.4%。

May, 2023

通过详细的 3D 物体表征实现场景理解

本文提出了一种基于 3D 可变形线框的高分辨率车辆对象表示，该表示能精细地建模单个点和面的水平，结合此表示和明确的 3D 场景模型，我们能够对场景进行更细致和准确的理解并从单个视角评估多个对象的位置与视点的单眼 3D 姿态估计。

Nov, 2014

基于分割的 6D 物体姿态估计

本文提出一种基于分割的 6D 姿态估计框架，使用关键点检测获取局部姿态预测，并根据置信度预测将这些姿态候选融合成可靠的 3D-to-2D 对应关系，从而在多个低纹理物体相互遮挡的情况下获得最优姿态估计，其采用简单且高效的架构实现实时性能。

Dec, 2018

通过自监督姿态对齐进行细粒度物体分类

提出了一种基于图形的对象表示来消除姿态变化，实现自我监督的姿态对齐，同时还结合粗到细的监督和浅到深的子网络的提议的姿态不敏感限制，以逐步学习的方式鼓励网络产生区分性特征，已成功应用于三项流行的细粒度物体分类基准中，达到了最先进水平。

Mar, 2022

形状推姿：任意三维物体的深度姿态估计

我们提出了一种完全通用的深度姿态估计方法，通过动态条件姿态估计和目标物体的 3D 模型表示相结合，能够对不属于预定义类别的自然实体进行训练并将其推广到全新类型的 3D 对象。

Jun, 2019

GS-Pose: 基于几何和语义一致的类别级目标姿态估计

类别级别姿态估计是一项具有挑战性的任务，近期深度学习方法取得了很大进展，但常常受到需要大量数据集或精心调整的逼真模拟器的限制。为了解决这个冲突，我们提出利用从预训练基础模型中获取的几何和语义特征，通过将 2D 特征从基础模型投影到三维空间来对单个类别的物体模型进行匹配，并在训练好的匹配网络上处理对未见物体实例的新的单视图观测，这比先前方法需要的数据量显著减少。我们通过丰富的评估结果表明了这一点，并展示了比先前方法更好的性能。

Nov, 2023

基于零件的 R-CNN 用于细粒度分类检测

该论文提出了一种基于语义部分定位的细粒度分类方法，并通过利用深度卷积特征来克服对象检测困难，同时学习整个对象和零散对象部分的检测器和他们之间的几何约束，从而预测一个细粒度的类别。该方法在不需要在测试时提供包围盒的情况下，通过对 Caltech-UCSD Bird 数据集的实验证明其优于现有细粒度分类方法。

Jul, 2014

基于扩散模型的生成式类别级物体位姿估计: GenPose

本文提出了一种基于条件生成建模的目标姿态估计方法，该模型采用基于得分的扩散模型来估计对象姿态，借助二步过程（似然度估计和均值池化）从扩散模型中抽样候选项并综合其结果，约束了不确定性。该方法在 REAL275 数据集上实现了最先进的性能，且不需要微调即可适应具有相似对称性质的新类别，且能够产生与当前最先进的基线相当的结果。

Jun, 2023

多视角多类别物体姿态估计的统一框架

本文介绍了一种基于深度卷积神经网络的方法，能够通过对特定对象类的分类和姿态回归，从单个或多视图中准确地推断大量对象类的六自由度姿态，并通过 SE（3）的均匀镶嵌提高了鲁棒性。作者还提出了一种适用于单视角存在歧义的高效多视图框架，并在 YCB-Video、JHUScene-50 和 ObjectNet-3D 三个大规模基准测试中取得了优异的表现，与目前现有技术相比表现优秀。

Mar, 2018

从 RGB-D 图像推断三维物体姿态

该研究旨在使用卷积神经网络检测和定位 RGB-D 场景中的物体，然后使用 3D 模型替换它们，相对于目前最先进的算法，该方法在 3D 检测任务中表现出 48％的相对改进，并且速度更快。

Feb, 2015