STGFormer: 基于时空图的三维人体姿势估计视频模型

Jul, 2024

STGFormer: 基于时空图的三维人体姿势估计视频模型

STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video

Yang Liu, Zhiyong Zhang

TL;DR该研究提出了一种融合基于体形结构图的表示和时空信息的时空图神经网络建模框架，以解决视频中三维人体姿势估计中深度模糊所带来的挑战。通过引入融合图信息的注意力机制以及在参数使用和特征学习方面的优化处理，该方法在Human3.6M和MPI-INF-3DHP数据集上实现了领先水平的三维人体姿势估计性能。

Abstract

The current methods of video-based 3d human pose estimation have achieved significant progress; however, they continue to confront the significant challenge of depth ambiguity. To address this limitation, this pa

发现论文，激发创造

利用时间信息进行三维姿态估计

本文提出了一种基于LSTM网络，使用时间信息提高2D关节点坐标序列估算3D姿势的鲁棒性和一致性，实验在Human3.6M上提高了12.2%的精度。

Nov, 2017

使用具有显式遮挡训练的时空网络进行3D人体姿势估计

借助多尺度空间特征和多步幅时间卷积网络，在设计A的基础上，B通过在训练过程中模拟各种遮挡情况来提高露出度鲁棒性，并利用2D视频数据注入半监督学习能力。实验证实了该方法的有效性，并且消融研究表明我们网络的单个子模块的优势。

Apr, 2020

条件有向图卷积用于三维人体姿态估计

本文提出一种基于有向图模型的U型结构的条件有向图卷积网络，用于从单目视频中进行3D人体姿势估计，实验结果表明有向图模型可以更好地利用人体骨骼的层次结构，而条件连接可以为不同的姿态产生自适应的图拓扑。

Jul, 2021

利用基于Transformer的融合网络探索联合动作协同性用于3D人体姿态估计

提出了一种名为Fusionformer的方法用于3D人体姿态估计任务，通过引入自身轨迹模块、互相轨迹模块和全局空间时间特征以及局部关节轨迹特征的融合，最终通过姿势精炼网络来平衡3D投影的一致性，并在两个基准数据集上进行评估，结果表明与基线方法poseformer相比，在Human3.6M数据集上分别提高了2.4％的MPJPE和4.3％的P-MPJPE。

Oct, 2022

基于迭代图滤波网络的三维人体姿态估计

本文介绍了一种基于迭代图滤波的框架，用于3D人体姿势估计，并通过高斯-塞德尔迭代法设计了Gauss-Seidel网络架构，利用邻接修正和跳跃连接等方法改善模型性能。实验结果表明，该方法在两个标准数据集上都超过了其他基准方法，达到了最先进性能。

Jul, 2023

图像和视频的三维人体姿态估计的双链约束

本文提出了一种名为Double-chain Graph Convolutional Transformer (DC-GCT)的新模型，通过局部到全局和全局到局部的双链设计来约束姿势，并结合GCN和Transformer的优势以及基于自注意机制的局部约束模块和全局约束模块以及特征交互模块来完整捕捉人体关节之间的多级依赖关系，将时间信息引入单帧模型，并在计算成本几乎不增加的情况下通过将目标帧的关节嵌入来指导视频序列嵌入。实验结果表明，DC-GCT在两个具有挑战性的数据集（Human3.6M和MPI-INF-3DHP）上达到了最先进的性能。值得注意的是，我们的模型在Human3.6M数据集的所有动作类别上都使用了CPN检测到的2D姿势，我们的代码可在此URL获取。

Aug, 2023

时空MLP图网络用于3D人体姿势估计

提出一种新的空时网络架构，通过加权雅可比特征传播规则实现了图卷积网络在3D人体姿势估计上的有效性。

Aug, 2023

MotionAGFormer: 基于Transformer-GCNFormer网络的3D人体姿势估计增强

我们提出了一种新颖的Attention-GCNFormer（AGFormer）模块，通过使用两个并行的Transformer和GCNFormer流来减少通道数，以精确捕捉邻接关节之间的局部依赖关系。通过以适应性方式融合这两种表示，AGFormer模块在学习底层3D结构方面表现出更好的能力。通过堆叠多个AGFormer模块，我们提出了四个不同变体的MotionAGFormer模型，可以根据速度-准确性的权衡来选择。我们在两个常用基准数据集Human3.6M和MPI-INF-3DHP上评估了我们的模型。MotionAGFormer-B取得了最先进的结果，分别为38.4mm和16.2mm的P1错误率。值得注意的是，与Human3.6M数据集上的前一最先进模型相比，它使用了四分之一的参数，并且计算效率提高了三倍。该模型的代码和模型可在指定的网址上获得。

Oct, 2023

多跳图变换网络用于3D人体姿势估计

介绍了一个用于视频中2D到3D人体姿势估计的多跳图变换网络，通过利用多头自注意力和多跳图卷积网络的优势以捕获时空依赖关系和处理远距离交互，提出了一个模型架构来实现准确的全局和局部依赖关系捕捉以及处理所需的空间细节，实验结果表明其有效性和泛化能力。

May, 2024

图和跳过的Transformer：利用空间和时间建模能力进行高效的三维人体姿势估计

在这篇论文中，我们提出了一种全局方法来利用时空信息，采用紧凑的图和跳过Transformer架构实现高效的三维人体姿势估计。通过使用自适应拓扑的粗粒度身体部件构建空间图网络，在时序编码和解码阶段，使用简单有效的跳过Transformer捕捉长程时序依赖并实现分层特征聚合，同时引入动态信息到二维姿势序列中。通过在Human3.6M、MPI-INF-3DHP和Human-Eva基准测试集上进行广泛实验证明，G-SFormer系列方法相比之前的最新技术表现出更好的性能，仅具有约百分之十的参数量和显著降低的计算复杂度。此外，G-SFormer方法还对检测到的二维姿势不准确表现出卓越的鲁棒性。

Jul, 2024