Jul, 2024

图和跳过的 Transformer:利用空间和时间建模能力进行高效的三维人体姿势估计

TL;DR在这篇论文中,我们提出了一种全局方法来利用时空信息,采用紧凑的图和跳过 Transformer 架构实现高效的三维人体姿势估计。通过使用自适应拓扑的粗粒度身体部件构建空间图网络,在时序编码和解码阶段,使用简单有效的跳过 Transformer 捕捉长程时序依赖并实现分层特征聚合,同时引入动态信息到二维姿势序列中。通过在 Human3.6M、MPI-INF-3DHP 和 Human-Eva 基准测试集上进行广泛实验证明,G-SFormer 系列方法相比之前的最新技术表现出更好的性能,仅具有约百分之十的参数量和显著降低的计算复杂度。此外,G-SFormer 方法还对检测到的二维姿势不准确表现出卓越的鲁棒性。