Sep, 2023

AnyOKP: 单次和实例感知的预训练 ViT 目标关键点提取

TL;DR通过利用预训练视觉转换器(ViT)的强大表示能力,我们提出了一种针对灵活的以物体为中心的视觉感知的一次性实例感知对象关键点提取方法(AnyOKP),并可以在学习支持图像后,为任意类别的多个对象实例获得关键点。我们直接部署现成的预训练 ViT 进行通用化和可转移的特征提取,并通过训练无需增强特征。根据外观相似性在支持图像和查询图像中搜索最佳原型对(BPPs),以产生不考虑实例的候选关键点。然后,将包含所有候选关键点的整个图根据图边上的特征分布划分为子图。最后,每个子图代表一个对象实例。AnyOKP 在使用机械臂、移动机器人和外科手术机器人的相机收集的真实物体图像上进行了评估,不仅展示了跨类别的灵活性和实例感知性,还展示了对领域转移和视角变化的显著稳健性。