Jun, 2024

CapeX: 基于文本点解释的类别无关姿态估计

TL;DR传统的 2D 姿势估计模型受其设计的限制,仅适用于特定的物体类别,为了克服这些限制,通用类别姿势估计(CAPE)作为解决方案出现,CAPE 旨在使用统一模型为多样的物体类别进行关键点定位,可以从最小的注释支持图像中进行泛化,我们的方法采用了一种不同于常规 CAPE 方法的文本化方法,而不是使用支持图像,具体而言,我们使用姿势图,其中节点表示使用文本进行描述的关键点,这种表示利用文本描述的抽象和图所施加的结构,我们的方法有效地打破了对称性,保留了结构并改善了遮挡处理,我们使用 MP-100 基准验证了我们的新方法,该数据集涵盖 100 多个类别和 18,000 张图像,在 1-shot 设置下,我们的解决方案的性能提升了 1.07%,确立了 CAPE 的新的最先进技术水平,此外,我们通过提供文本描述注释来丰富数据集,进一步增强其对未来研究的实用性。