KTPFormer: 基于运动学和轨迹先验知识增强的 3D 人体姿态估计 Transformer

CVPRMar, 2024

KTPFormer: 基于运动学和轨迹先验知识增强的 3D 人体姿态估计 Transformer

KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation

Jihua Peng, Yanghong Zhou, P.Y. Mok

TL;DR本文提出了一种新颖的运动学和轨迹先验增强 Transformer（KTPFormer），它克服了现有基于 Transformer 的 3D 人体姿势估计方法的弱点，即其自注意机制中的 Q、K、V 向量的导出都基于简单的线性映射。我们提出了两个先验注意力模块，即运动学先验注意力（KPA）和轨迹先验注意力（TPA），利用已知的人体解剖结构和运动轨迹信息，以便在多头自注意力中有效学习全局依赖关系和特征。KPA 通过构建运动学拓扑来建模人体的运动学关系，而 TPA 构建轨迹拓扑来学习帧间的关节运动轨迹信息。借助先验知识生成的 Q、K、V 向量，这两个模块使 KTPFormer 能够同时建模空间和时间相关性。对三个基准数据集（Human3.6M、MPI-INF-3DHP 和 HumanEva）进行的大量实验证明，KTPFormer 在性能上优于现有的方法。更重要的是，我们的 KPA 和 TPA 模块具有轻量级的插拔设计，并且可以整合到各种基于 Transformer（例如基于扩散的）的网络中，仅在计算开销上略微增加性能。

Abstract

This paper presents a novel kinematics and trajectory Prior Knowledge-Enhanced transformer (KTPFormer), which overcomes the weakness in ex

kinematics trajectory transformer 3d human pose estimation self-attention mechanisms

发现论文，激发创造

利用基于 Transformer 的融合网络探索联合动作协同性用于 3D 人体姿态估计

提出了一种名为 Fusionformer 的方法用于 3D 人体姿态估计任务，通过引入自身轨迹模块、互相轨迹模块和全局空间时间特征以及局部关节轨迹特征的融合，最终通过姿势精炼网络来平衡 3D 投影的一致性，并在两个基准数据集上进行评估，结果表明与基线方法 poseformer 相比，在 Human3.6M 数据集上分别提高了 2.4％的 MPJPE 和 4.3％的 P-MPJPE。

Oct, 2022

ConvFormer: 利用动态多头卷积注意力实现 Transformer 模型的参数减少，用于 3D 人体姿势估计

本文提出了 ConvFormer：一种新型的卷积变压器，新增了一种动态的多头卷积自注意机制用于单目 3D 人体姿势估计。通过对人体各关节点之间的关系进行建模，利用时间关节特征的新概念进行完全的时间信息融合，成功地在三个基准数据集上实现了 SOTA 水平的结果，相对于以前的变压器模型取得了显著的参数降低。

Apr, 2023

使用空间和时间转换器的三维人体姿势估计

本研究提出一种基于 transformer 的算法，能够在视频中实现 3D 人体姿态估计，通过对空间和时间进行变换，对每一帧中人体关节关系进行建模，并在中心帧上输出准确的 3D 人体姿态，该算法在 Human3.6M 和 MPI-INF-3DHP 数据集上实现了最先进的成果。

Mar, 2021

PhysPT：从单眼视频估计人体动力学的物理感知预训练变压器

当前方法在从单目视频中估计 3D 人体动作方面取得了有希望的进展，本文提出了一种考虑物理学规律的预训练变压器（PhysPT），改进了基于运动学的动作估计并推断了运动力。实验证明，经过训练后的 PhysPT 能够直接应用于运动学估计，显著增强其物理上的可信度并产生有利的运动力，这些有意义的物理量进一步提高了重要下游任务 —— 人体动作识别的准确性。

Apr, 2024

多透视空时关系变换的精确 3D 人体姿势估计

我们提出了一个多阶段的 3D 序列到序列人体姿势检测框架，利用变压器的自注意力机制从多视角视频数据中捕捉空间 - 时间相关性，实验结果表明我们的方法在 Human3.6M 数据集上表现出色。

Jan, 2024

多人姿势预测的轨迹感知身体交互变换器

本文提出了一种称之为 TBIFormer 的新型多人姿态预测框架，利用社交身体相互作用自我关注机制和轨迹感知相对位置编码来高效地建模身体部位间的交互影响，实验结果表明，在短时和长时预测上，该方法在 CMU-Mocap、MuPoTS-3D 和合成数据集方面，都显著优于现有的其他方法。

Mar, 2023

用于三维人体运动预测的时空转换器

本文提出一种新颖的基于 Transformer 的架构，用于生成 3D 人体运动的模型。该模型能够学习高维度骨骼关节的嵌入，通过解耦的时间和空间自注意机制使得生成的姿态在时间上是连贯的。实验结果表明该模型能够准确地生成短期预测并在长期时间跨度内生成合理的运动序列。

Apr, 2020

MotionAGFormer: 基于 Transformer-GCNFormer 网络的 3D 人体姿势估计增强

我们提出了一种新颖的 Attention-GCNFormer（AGFormer）模块，通过使用两个并行的 Transformer 和 GCNFormer 流来减少通道数，以精确捕捉邻接关节之间的局部依赖关系。通过以适应性方式融合这两种表示，AGFormer 模块在学习底层 3D 结构方面表现出更好的能力。通过堆叠多个 AGFormer 模块，我们提出了四个不同变体的 MotionAGFormer 模型，可以根据速度 - 准确性的权衡来选择。我们在两个常用基准数据集 Human3.6M 和 MPI-INF-3DHP 上评估了我们的模型。MotionAGFormer-B 取得了最先进的结果，分别为 38.4mm 和 16.2mm 的 P1 错误率。值得注意的是，与 Human3.6M 数据集上的前一最先进模型相比，它使用了四分之一的参数，并且计算效率提高了三倍。该模型的代码和模型可在指定的网址上获得。

Oct, 2023

姿态导向的不确定性引导下的 Transformer 对 2D 到 3D 人体姿态估计进行精细优化

本文提出了一种姿势导向的自注意机制和基于距离的位置嵌入的 Pose-Oriented Transformer (POT) 以明确利用人类骨骼拓扑，并通过考虑每个关节的预测不确定度进行不确定性引导的采样策略和自注注意机制来优化 POT 的姿态预测。实验结果表明，在 3D HPE 基准测试中，我们的方法在减少模型参数并且比其他最先进方法的性能显著提高。

Feb, 2023

Human MotionFormer：基于视觉 Transformer 的人类动作转移

本论文提出了一种基于全球和本地感知的分层的 ViT 框架 Human MotionFormer，旨在提高人类运动转移中的特征匹配和运动品质，该方法通过多个块的特征匹配和运动传递，实现了全局特征匹配，进一步引入了卷积层来改善局部感知，实现了平移和生成分支之间的协同监督来训练更好的运动表示，取得了最先进的效果。

Feb, 2023