AnyOKP: 单次和实例感知的预训练 ViT 目标关键点提取

Sep, 2023

AnyOKP: 单次和实例感知的预训练 ViT 目标关键点提取

AnyOKP: One-Shot and Instance-Aware Object Keypoint Extraction with Pretrained ViT

Fangbo Qin, Taogang Hou, Shan Lin, Kaiyuan Wang, Michael C. Yip...

TL;DR通过利用预训练视觉转换器（ViT）的强大表示能力，我们提出了一种针对灵活的以物体为中心的视觉感知的一次性实例感知对象关键点提取方法（AnyOKP），并可以在学习支持图像后，为任意类别的多个对象实例获得关键点。我们直接部署现成的预训练 ViT 进行通用化和可转移的特征提取，并通过训练无需增强特征。根据外观相似性在支持图像和查询图像中搜索最佳原型对（BPPs），以产生不考虑实例的候选关键点。然后，将包含所有候选关键点的整个图根据图边上的特征分布划分为子图。最后，每个子图代表一个对象实例。AnyOKP 在使用机械臂、移动机器人和外科手术机器人的相机收集的真实物体图像上进行了评估，不仅展示了跨类别的灵活性和实例感知性，还展示了对领域转移和视角变化的显著稳健性。

Abstract

Towards flexible object-centric visual perception, we propose a one-shot instance-aware object keypoint (OKP) extraction approach, AnyOKP, which leverages the powerful representation ability of pretrained vision transfo

flexible object-centric visual perception one-shot instance-aware object keypoint extraction pretrained vision transformer support image cross-category flexibility

发现论文，激发创造

KOPPA：基于键查询正交投影和基于原型的一对多的提升基于提示的连续学习

基于预训练的 ViT 网络，结合提示调优技术应用于大型语言模型，本研究提出了一种基于正交投影的新型键 - 查询学习策略，增强了提示匹配效率并解决了特征转移的挑战。此外，引入了基于一对多的原型组件来增强分类头的区分度。基准数据集上的实验结果表明，我们的方法使模型的结果超过现有最先进方法多达 20%。

Nov, 2023

UniPose: 检测任意关键点

该研究提出了一个名为 UniPose 的统一框架，通过视觉或文本提示实现对人体、动物、刚性和柔性物体的关键点检测，以实现细粒度视觉理解和操作。

Oct, 2023

可见性感知的 6 自由度物体姿态估计关键点定位

本研究使用可见性信息解决在二维图像中无法可靠定位不可见关键点的问题，并通过 PageRank 算法从可见性标签中生成实值可见性感知重要性，结合最先进的位姿估计算法和位置编码，构建了 VAPO（可见性感知位姿估计器），实验证明它在关键点对应和最终位姿估计方面都有显著的提高，达到了最先进水平。

Mar, 2024

面向动物身体和面部的语言驱动开放词汇关键点检测

使用图像和语言模型相结合的开放词汇关键点检测方法，通过关联文本提示与相关关键点特征实现任意物种的关键点检测，以实现在零样本情况下超越当前最先进的少样本关键点检测方法，并在 OVKD 上取得了显著的性能改进。

Oct, 2023

kPAM: 面向类别级别机器人操作的关键点位位拓扑

本文提出了一种新颖的类别级别的机器人操作方法，使用基于语义三维关键点的物体表示方法，并使用该表示法将操纵策略分解为实例分割、三维关键点检测、基于优化的机器人动作规划和本地密集几何学操作执行，从而提高了操纵泛化能力和鲁棒性。

Mar, 2019

从显著性到 DINO: 基于显著性的视觉 Transformer 用于少样本关键点检测

研究提出了一种基于视觉转换器（ViT）的新型显著性引导视觉转换器（SalViT），实现了少样本关键点检测，并通过形态学学习者和软遮罩机制使关键点学习更加精确，同时还为从未见过的关键点和遮挡噪声提供了支持。

Apr, 2023

Few-shot 几何感知关键点定位

本文提出了一种基于 Few-shot learning 的填充关键点标注鲁棒性方法，通过少数的半监督数据和大量的自监督数据，在各种不同的物体类别中实现了语义一致的关键点定位和更准确的 3D 几何重建局部特征的二维定位。

Mar, 2023

学习更好的多物体六自由度姿态估计关键点

通过训练图网络选择一组分散但具有相似分布投票的关键点，从而提高姿势估计的准确性和效率。通过回归网络学习关键点算法，所学习的投票可以与之前的启发式算法相比更准确地回归关键点位置。实验结果表明，KeyGNet 选择的关键点在所有七个数据集上的所有评估指标都提高了准确性，特别是在具有挑战性的 Occlusion LINEMOD 数据集上。当使用 KeyGNet 的关键点进行单物体到多物体的训练时，性能明显提高，从而消除了 SISO-MIMO 差距。

Aug, 2023

S3K: 自监督语义关键点多视角一致性用于机器人操作

本文探讨机器人行动的基本局限性和现有的视觉表征学习方法存在的问题，并提出利用语义三维关键点作为视觉表征的方法，通过半监督训练，使其精度达到毫米级别，能够帮助定义强化学习的奖励函数并作为代理训练的有效表征。

Sep, 2020

面向开放词汇物体检测的目标感知蒸馏金字塔

本研究提出了一种基于目标感知的提取知识框架 OADP，包括 OAKE 模块和 DP 机制，通过自适应变换目标提案和引入全局和块知识提取以弥补对象精炼中的信息缺失。在 MS-COCO 数据集上，该方法取得了显著的改进。

Mar, 2023