使用独立标记捕捉每个关节的动作：三维人体姿态和形状估计

Mar, 2023

使用独立标记捕捉每个关节的动作：三维人体姿态和形状估计

Capturing the motion of every joint: 3D human pose and shape estimation with independent tokens

Sen Yang, Wen Heng, Gang Liu, Guozhong Luo, Wankou Yang...

TL;DR提出一种基于Transformer的模型，使用三种独立的tokens学习人体的3D关节旋转，身体形状和位置信息，进而估算SMPL参数，从而解决单目图像或视频中3D人体姿态和形状估计的困难问题，并具有较好性能。

Abstract

In this paper we present a novel method to estimate 3d human pose and shape from monocular videos. This task requires directly recovering pixel-alignment →

发现论文，激发创造

使用具有显式遮挡训练的时空网络进行3D人体姿势估计

借助多尺度空间特征和多步幅时间卷积网络，在设计A的基础上，B通过在训练过程中模拟各种遮挡情况来提高露出度鲁棒性，并利用2D视频数据注入半监督学习能力。实验证实了该方法的有效性，并且消融研究表明我们网络的单个子模块的优势。

Apr, 2020

使用空间和时间转换器的三维人体姿势估计

本研究提出一种基于transformer的算法，能够在视频中实现3D人体姿态估计，通过对空间和时间进行变换，对每一帧中人体关节关系进行建模，并在中心帧上输出准确的3D人体姿态，该算法在Human3.6M和MPI-INF-3DHP数据集上实现了最先进的成果。

Mar, 2021

从野外多个不受限制图像中的概率三维人体形状和姿势估计

本研究提出了一种新的任务，在人体形态和姿势估计中使用多幅图像组成的分布预测模型，使我们能够量化姿势预测的不确定性，并提高了 3D 人体形态估计度量标准。

Mar, 2021

基于深度学习的单目2D和3D人体姿态估计的最新进展

本研究调查了深度学习技术在单目视觉下的人体姿态估计方面的最新进展，针对目前各个领域应用进行了综述，并提出了未来需求的研究方向。

Apr, 2021

捕捉运动中的人类：从单目视频中估计时间关注的三维人体姿态和形状

该研究提出了一种运动姿势和形状网络（MPS-Net）来有效地捕捉视频中的运动并从中估计准确的和时间连续的三维人体姿态和形状。MPS-Net利用运动连续性注意力（MoCA）模块和分层注意特征融合（HAFI）模块以提高运动姿势的精度并使用更少的网络参数。

Mar, 2022

通过-Uplifting-Transformers实现高效三维人体姿势估计的提升和上采样

本文提出了一种基于 Transformer 的姿势提升方案，能够处理时间上稀疏的二维姿势序列，但仍能产生时间上密集的三维姿势估计。其采用掩码令牌建模来实现 Transformer 块内的时间上采样，可以大大降低总计算复杂度。在 Human3.6M 和 MPI-INF-3DHP 上评估表明，相对于现有的方法，所提出的方法在保持准确性的同时将推理时间降低了12倍，这提高了在不同应用中使用可变消费者硬件的实时吞吐量。

Oct, 2022

PoseFormerV2: 探索频域以实现高效和强韧的3D人体姿势估计

本研究提出了一种名为PoseFormerV2的新型人体姿态估计方法，借助于在频域上紧凑的骨骼序列表示，以有效地扩大接受域并增强对噪声干扰的鲁棒性，进行时域和频域特征有效融合，相较于原始的PoseFormer和其他基于transformer的变体有更好的速度-准确性平衡。

Mar, 2023

从视频中估计3D人体姿态和网格的共同演化

提出了一种Pose and Mesh Co-Evolution网络（PMCE），通过将任务分解为视频中基于3D人体姿势估计和来自估计的3D姿势和时间图像特征的网格顶点回归，解决了从视频中准确、平滑地恢复3D人体运动的问题。实验证明，该方法在三个基准数据集（3DPW、Human3.6M和MPI-INF-3DHP）上在逐帧准确度和时间一致性方面优于先前的最先进方法。

Aug, 2023

增强时空上下文：单目视频中具有时态一致性的稳健3D人体动作恢复

提出了一种从单眼视频中恢复时间一致的3D人体姿势、形状和动作的方法，通过使用具有身体感知特征表示和独立的逐帧姿势和相机初始化，结合自相似性和自注意力等技术进行时空特征聚合，该方法提供了增强的时空上下文，可在各种复杂场景下得到更准确的姿势估计和形状重建。

Nov, 2023

TokenHMR：使用令牌化姿态表示改善人体网格恢复

从单个图像中推断3D人体姿态和形状的问题，重点关注3D准确性。目前最好的方法利用大量的3D伪地面真值(p-GT)和2D关键点数据集，以实现稳健性能。我们观察到，随着2D准确性的提高，3D姿势准确性出现矛盾下降。错误的3D姿势是由于当前相机模型的偏差和2D关键点与p-GT的准确匹配引起的。我们定量化了当前相机模型引入的误差，并证明精确拟合2D关键点和p-GT会导致错误的3D姿势。我们提出了新的阈值自适应损失缩放(TALS)来惩罚较大的2D和p-GT损失，但不惩罚较小的损失。此方法可以解释2D数据的多个3D姿势，为了减少模糊性，我们需要一个先验来限制人体姿势的有效空间，我们利用人体姿势的Token编码重新定义了问题，这有效地引入了一个统一的先验。基于EMDB和3DPW数据集的大量实验证明，我们改进的关键点损失和Token编码使我们能够在野外数据上进行训练，并提高了3D准确性，我们的模型和代码可供研究使用。

Apr, 2024