图和跳过的Transformer：利用空间和时间建模能力进行高效的三维人体姿势估计

Jul, 2024

图和跳过的Transformer：利用空间和时间建模能力进行高效的三维人体姿势估计

Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation

HTML

PDF

Mengmeng Cui, Kunbo Zhang, Zhenan Sun

TL;DR在这篇论文中，我们提出了一种全局方法来利用时空信息，采用紧凑的图和跳过Transformer架构实现高效的三维人体姿势估计。通过使用自适应拓扑的粗粒度身体部件构建空间图网络，在时序编码和解码阶段，使用简单有效的跳过Transformer捕捉长程时序依赖并实现分层特征聚合，同时引入动态信息到二维姿势序列中。通过在Human3.6M、MPI-INF-3DHP和Human-Eva基准测试集上进行广泛实验证明，G-SFormer系列方法相比之前的最新技术表现出更好的性能，仅具有约百分之十的参数量和显著降低的计算复杂度。此外，G-SFormer方法还对检测到的二维姿势不准确表现出卓越的鲁棒性。

Abstract

In recent years, 2d-to-3d pose uplifting in monocular 3D Human Pose Estimation (HPE) has attracted widespread research interest. GNN-based methods and Transformer-based methods have become mainstream architectures due to their advanced spatial and temporal feature learning capacities.

发现论文，激发创造

使用空间和时间转换器的三维人体姿势估计

本研究提出一种基于transformer的算法，能够在视频中实现3D人体姿态估计，通过对空间和时间进行变换，对每一帧中人体关节关系进行建模，并在中心帧上输出准确的3D人体姿态，该算法在Human3.6M和MPI-INF-3DHP数据集上实现了最先进的成果。

Mar, 2021

网格 Graphormer

本文提出一种名为Mesh Graphormer的图卷积强化Transformer，可从单张图像中重建3D人体姿势和网格。实验结果表明，该方法在多个基准测试中显著优于先前的最先进方法。

Apr, 2021

一个轻量级的图变换网络用于从2D人体姿势重建人体网格

本文提出了一种基于姿势的轻量级方法 GTRS，它可以从 2D 人类姿态重构人类网格。该方法利用图变换器来提取结构化和隐式的关节相关性以及网格模板来重构人类网格，从而大大提高了模型的效率和泛化性能。在 Human3.6M 和 3DPW 数据集上进行广泛的评估，GTRS 方法在仅使用 10.2％的参数和 2.5％的 FLOPs 的同时，比 SOTA 基于姿态的 Pose2Mesh 方法实现了更好的准确性。

Nov, 2021

用于从 2D 人体姿态估计中获得人体姿态和形状的模块化多阶段轻量级图转换网络

本文提出了一种基于图表的变形网络，实现了从二维人体姿态到三维人体姿态的估计和到三维人体网格参数的回归。该方法在保证精度的同时，优化了计算效率，具有广泛的实际应用价值。

Jan, 2023

姿态导向的不确定性引导下的Transformer对2D到3D人体姿态估计进行精细优化

本文提出了一种姿势导向的自注意机制和基于距离的位置嵌入的Pose-Oriented Transformer(POT)以明确利用人类骨骼拓扑，并通过考虑每个关节的预测不确定度进行不确定性引导的采样策略和自注注意机制来优化POT的姿态预测。实验结果表明，在3D HPE基准测试中，我们的方法在减少模型参数并且比其他最先进方法的性能显著提高。

Feb, 2023

GATOR: 面向图形的变形器和运动解耦回归的人体网格恢复从2D姿势

研究提出了一种名为GATOR的新颖方法，其中包含了一个AGT编码器和一个具有MDR的解码器，以同时探索骨架到网格的多个关系，包括关节-关节、关节-顶点和顶点-顶点关系，并在顶点偏移场的聚类特征的基础上推断出顶点。

Mar, 2023

基于迭代图滤波网络的三维人体姿态估计

本文介绍了一种基于迭代图滤波的框架，用于3D人体姿势估计，并通过高斯-塞德尔迭代法设计了Gauss-Seidel网络架构，利用邻接修正和跳跃连接等方法改善模型性能。实验结果表明，该方法在两个标准数据集上都超过了其他基准方法，达到了最先进性能。

Jul, 2023

图像和视频的三维人体姿态估计的双链约束

本文提出了一种名为Double-chain Graph Convolutional Transformer (DC-GCT)的新模型，通过局部到全局和全局到局部的双链设计来约束姿势，并结合GCN和Transformer的优势以及基于自注意机制的局部约束模块和全局约束模块以及特征交互模块来完整捕捉人体关节之间的多级依赖关系，将时间信息引入单帧模型，并在计算成本几乎不增加的情况下通过将目标帧的关节嵌入来指导视频序列嵌入。实验结果表明，DC-GCT在两个具有挑战性的数据集（Human3.6M和MPI-INF-3DHP）上达到了最先进的性能。值得注意的是，我们的模型在Human3.6M数据集的所有动作类别上都使用了CPN检测到的2D姿势，我们的代码可在此URL获取。

Aug, 2023

MotionAGFormer: 基于Transformer-GCNFormer网络的3D人体姿势估计增强

我们提出了一种新颖的Attention-GCNFormer（AGFormer）模块，通过使用两个并行的Transformer和GCNFormer流来减少通道数，以精确捕捉邻接关节之间的局部依赖关系。通过以适应性方式融合这两种表示，AGFormer模块在学习底层3D结构方面表现出更好的能力。通过堆叠多个AGFormer模块，我们提出了四个不同变体的MotionAGFormer模型，可以根据速度-准确性的权衡来选择。我们在两个常用基准数据集Human3.6M和MPI-INF-3DHP上评估了我们的模型。MotionAGFormer-B取得了最先进的结果，分别为38.4mm和16.2mm的P1错误率。值得注意的是，与Human3.6M数据集上的前一最先进模型相比，它使用了四分之一的参数，并且计算效率提高了三倍。该模型的代码和模型可在指定的网址上获得。

Oct, 2023

STGFormer: 基于时空图的三维人体姿势估计视频模型

该研究提出了一种融合基于体形结构图的表示和时空信息的时空图神经网络建模框架，以解决视频中三维人体姿势估计中深度模糊所带来的挑战。通过引入融合图信息的注意力机制以及在参数使用和特征学习方面的优化处理，该方法在Human3.6M和MPI-INF-3DHP数据集上实现了领先水平的三维人体姿势估计性能。

Jul, 2024