CVPRMar, 2024

KTPFormer: 基于运动学和轨迹先验知识增强的 3D 人体姿态估计 Transformer

TL;DR本文提出了一种新颖的运动学和轨迹先验增强 Transformer(KTPFormer),它克服了现有基于 Transformer 的 3D 人体姿势估计方法的弱点,即其自注意机制中的 Q、K、V 向量的导出都基于简单的线性映射。我们提出了两个先验注意力模块,即运动学先验注意力(KPA)和轨迹先验注意力(TPA),利用已知的人体解剖结构和运动轨迹信息,以便在多头自注意力中有效学习全局依赖关系和特征。KPA 通过构建运动学拓扑来建模人体的运动学关系,而 TPA 构建轨迹拓扑来学习帧间的关节运动轨迹信息。借助先验知识生成的 Q、K、V 向量,这两个模块使 KTPFormer 能够同时建模空间和时间相关性。对三个基准数据集(Human3.6M、MPI-INF-3DHP 和 HumanEva)进行的大量实验证明,KTPFormer 在性能上优于现有的方法。更重要的是,我们的 KPA 和 TPA 模块具有轻量级的插拔设计,并且可以整合到各种基于 Transformer(例如基于扩散的)的网络中,仅在计算开销上略微增加性能。