MMSep, 2023

CLIP-Hand3D:基于上下文感知的 3D 手势姿态估计的利用

TL;DR提出了一种称为 CLIP-Hand3D 的新颖的 3D 手势估计器,能够成功地将文本提示与不规则的详细姿势分布连接起来,并通过对姿势标签进行编码,形成相应的文本提示,并从中检索 3D 空间中的 21 个手关节,并对它们的空间分布进行编码以形成姿势感知特征,随后通过构建一个粗到细的网格回归器来最大化姿势 - 文本特征对的语义一致性,实验结果表明该模型相比使用相似规模骨干的方法,在几个公开手部基准测试中实现了更快的推断速度和最先进的性能。