CapeX: 基于文本点解释的类别无关姿态估计

Jun, 2024

CapeX: 基于文本点解释的类别无关姿态估计

CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation

Matan Rusanovsky, Or Hirschorn, Shai Avidan

TL;DR传统的 2D 姿势估计模型受其设计的限制，仅适用于特定的物体类别，为了克服这些限制，通用类别姿势估计（CAPE）作为解决方案出现，CAPE 旨在使用统一模型为多样的物体类别进行关键点定位，可以从最小的注释支持图像中进行泛化，我们的方法采用了一种不同于常规 CAPE 方法的文本化方法，而不是使用支持图像，具体而言，我们使用姿势图，其中节点表示使用文本进行描述的关键点，这种表示利用文本描述的抽象和图所施加的结构，我们的方法有效地打破了对称性，保留了结构并改善了遮挡处理，我们使用 MP-100 基准验证了我们的新方法，该数据集涵盖 100 多个类别和 18,000 张图像，在 1-shot 设置下，我们的解决方案的性能提升了 1.07％，确立了 CAPE 的新的最先进技术水平，此外，我们通过提供文本描述注释来丰富数据集，进一步增强其对未来研究的实用性。

Abstract

Conventional 2d pose estimation models are constrained by their design to specific object categories. This limits their applicability to predefined objects. To overcome these limitations, category-agnostic pose estimati

2d pose estimation category-agnostic pose estimation keypoint localization text-based approach mp-100 benchmark

发现论文，激发创造

Pose Anything: 基于图结构的类别无关姿态估计方法

传统的 2D 姿态估计模型局限于其特定类别的设计，限定了其适用范围，对于新颖对象缺乏相关训练数据的情况尤其具有挑战性。为了应对这一局限性，引入了无类别限制的姿态估计（CAPE）方法，在仅需标注关键点的最小支持图像的情况下，实现了任意对象类别的关键点定位。我们提出了一种利用新设计的图转换解码器的 CAPE 新方法，通过捕捉和整合关键点之间固有的几何关系信息，进一步提高了关键点定位的准确性，与传统 CAPE 技术将关键点视为孤立实体的方式存在显著区别。我们在包含超过 100 个类别的 20,000 多张图像的 MP-100 基准数据集上验证了我们的方法，与之前最先进的方法相比，本方法在 1-shot 和 5-shot 设置下均取得了显著的改进，分别达到了 2.16％和 1.82％的提升。此外，与之前的 CAPE 方法相比，我们的方法的端对端训练表现出良好的可扩展性和效率。

Nov, 2023

Pose for Everything: 通往类别无关姿势估计之路

本文提出了一种 CAPEG 框架，即 POSE Matching Network，并提出了一种基于 transformer 的 Keypoint Interaction Module，能够捕捉不同关键点之间的交互和支持和查询图像之间的关系，同时介绍了一个新的 MP-100 数据集，使用实验表明我们的方法比其他基线方法表现更好。

Jul, 2022

元点学习与细化的类别无关姿态估计

通过学习模型与图像特征交互生成称为 ' 超点 ' 的潜在关键点，综合利用支持关键点信息提供监督和精化，从而实现了更好的类别不可知姿态估计。

Mar, 2024

面向实际应用的类别级别姿态估计

该研究提出了一种 CAPE-Real 任务设置，旨在解决真实环境下多实例、变化运动结构的各类关节对象建模问题。提出了 ReArtNOCS 框架，利用 RGB-D 输入单次向前推断多个实例的分层姿态估计，并在大规模混合现实数据集 ReArtMix 和真实世界数据集 ReArtVal 上进行了广泛实验证明其性能良好，将成为以后 CAPER 任务相关研究的强有力基准。

May, 2021

点云的通用类别姿态估计

该论文介绍了一种通过使用几何特征来估计点云的位姿而无需分类信息的方法，该方法可以成功地在 CAMERA25 数据集和 ModelNet40 数据集上实现无分类信息实例的位姿标注。

Mar, 2024

CAPTRA: 基于点云的刚体和关节物体类别级位姿跟踪

该论文提出了一个统一的框架来处理品类、实例以及部位的姿态追踪问题，其中 9DoF 姿态表示通过 3D 错套边框实现。通过三个模块的组合提高 9DoF 姿态的精度达到了最优，成为了该领域的新的最优实践方法。

Apr, 2021

CLIPose: 预训练视觉语言知识下的类别级物体姿态估计

通过利用不同模态的丰富语义知识，以及多模态对齐和增强的方式，CLIPose 提出了一种新颖的 6D 姿态框架，以更好地实现对目标类别信息的学习和姿态估计，并在两个主流基准数据集上取得了最先进的性能。

Feb, 2024

GS-Pose: 基于几何和语义一致的类别级目标姿态估计

类别级别姿态估计是一项具有挑战性的任务，近期深度学习方法取得了很大进展，但常常受到需要大量数据集或精心调整的逼真模拟器的限制。为了解决这个冲突，我们提出利用从预训练基础模型中获取的几何和语义特征，通过将 2D 特征从基础模型投影到三维空间来对单个类别的物体模型进行匹配，并在训练好的匹配网络上处理对未见物体实例的新的单视图观测，这比先前方法需要的数据量显著减少。我们通过丰富的评估结果表明了这一点，并展示了比先前方法更好的性能。

Nov, 2023

TTA-COPE：类别级物体姿态估计的测试时自适应

本研究提出了一种名为 TTA-COPE 的测试时适应方法，用于类别级别对象姿态估计，通过序列在线处理测试数据，使用自训练损失和姿态感知置信度设计姿态集合方法，无需运行时访问源域，实验结果表明该方法可以提高半监督和无监督设置下的对象姿态表现。

Mar, 2023

多角度三维物体检测的相机视角位置嵌入

本文提出了一种基于相机视图位置编码（CAPE）的方法，旨在解决基于查询的多视图 3D 目标检测问题，实验结果表明，该方法在 NuScenes 数据集上的表现已达到目前最先进水平。

Mar, 2023