EVOPOSE: 基于递归变换器的三维人体姿势估计与动力学结构先验
本研究提出一种基于 transformer 的算法,能够在视频中实现 3D 人体姿态估计,通过对空间和时间进行变换,对每一帧中人体关节关系进行建模,并在中心帧上输出准确的 3D 人体姿态,该算法在 Human3.6M 和 MPI-INF-3DHP 数据集上实现了最先进的成果。
Mar, 2021
我们提出了一个多阶段的 3D 序列到序列人体姿势检测框架,利用变压器的自注意力机制从多视角视频数据中捕捉空间 - 时间相关性,实验结果表明我们的方法在 Human3.6M 数据集上表现出色。
Jan, 2024
本文提出了一种采用运动学结构保持无监督学习的 3D 人体姿势估计框架,可以避免使用任何弱监督模型,并通过能量损失和运动学先验知识来训练模型,提高对新环境下的准确性和泛化能力。
Jun, 2020
在这篇论文中,我们提出了一种全局方法来利用时空信息,采用紧凑的图和跳过 Transformer 架构实现高效的三维人体姿势估计。通过使用自适应拓扑的粗粒度身体部件构建空间图网络,在时序编码和解码阶段,使用简单有效的跳过 Transformer 捕捉长程时序依赖并实现分层特征聚合,同时引入动态信息到二维姿势序列中。通过在 Human3.6M、MPI-INF-3DHP 和 Human-Eva 基准测试集上进行广泛实验证明,G-SFormer 系列方法相比之前的最新技术表现出更好的性能,仅具有约百分之十的参数量和显著降低的计算复杂度。此外,G-SFormer 方法还对检测到的二维姿势不准确表现出卓越的鲁棒性。
Jul, 2024
本文提出了一种基于图表的变形网络,实现了从二维人体姿态到三维人体姿态的估计和到三维人体网格参数的回归。该方法在保证精度的同时,优化了计算效率,具有广泛的实际应用价值。
Jan, 2023
本文提出了一种姿势导向的自注意机制和基于距离的位置嵌入的 Pose-Oriented Transformer (POT) 以明确利用人类骨骼拓扑,并通过考虑每个关节的预测不确定度进行不确定性引导的采样策略和自注注意机制来优化 POT 的姿态预测。实验结果表明,在 3D HPE 基准测试中,我们的方法在减少模型参数并且比其他最先进方法的性能显著提高。
Feb, 2023
本文提出了一种新颖的运动学和轨迹先验增强 Transformer(KTPFormer),它克服了现有基于 Transformer 的 3D 人体姿势估计方法的弱点,即其自注意机制中的 Q、K、V 向量的导出都基于简单的线性映射。我们提出了两个先验注意力模块,即运动学先验注意力(KPA)和轨迹先验注意力(TPA),利用已知的人体解剖结构和运动轨迹信息,以便在多头自注意力中有效学习全局依赖关系和特征。KPA 通过构建运动学拓扑来建模人体的运动学关系,而 TPA 构建轨迹拓扑来学习帧间的关节运动轨迹信息。借助先验知识生成的 Q、K、V 向量,这两个模块使 KTPFormer 能够同时建模空间和时间相关性。对三个基准数据集(Human3.6M、MPI-INF-3DHP 和 HumanEva)进行的大量实验证明,KTPFormer 在性能上优于现有的方法。更重要的是,我们的 KPA 和 TPA 模块具有轻量级的插拔设计,并且可以整合到各种基于 Transformer(例如基于扩散的)的网络中,仅在计算开销上略微增加性能。
Mar, 2024
该研究论文提出了一种可应用于多视角 3D 姿态估计中的变换器框架,该框架可以直接整合来自不同视角的信息,以改善 2D 预测器的性能。同时,研究人员还提出了一个名为 Epipolar field 的概念,它可以将 3D 位置信息编码到变换器模型中。实验证明,该方法更加高效,与其他融合方法相比有一致的改进。
Oct, 2021
本文介绍了一种基于递归 3D 姿态序列机器(RPSM)的方法,利用多级顺序细化来自动学习图像相依结构约束和序列相依时间上下文,以提高准确的 3D 姿态序列预测,在人类行为数据集 Human3.6M 和 HumanEva-I 数据集方面的评估显示,我们的方法优于所有最先进的 3D 姿态估计方法。
Jul, 2017
本文提出改进的基于 Transformer 的 Strided Transformer 架构,以简单有效地将冗余的 2D 姿势序列提升到单个 3D 姿势。通过给 Vanilla Transformer 编码器换成步幅卷积的方式,降低了序列的冗余性,同时设计了全 - 单监督方案来约束输出,从而在两个基准数据集上获得了最佳结果并减少了参数。
Mar, 2021