利用基于Transformer的融合网络探索联合动作协同性用于3D人体姿态估计
借助多尺度空间特征和多步幅时间卷积网络,在设计A的基础上,B通过在训练过程中模拟各种遮挡情况来提高露出度鲁棒性,并利用2D视频数据注入半监督学习能力。实验证实了该方法的有效性,并且消融研究表明我们网络的单个子模块的优势。
Apr, 2020
本研究提出一种基于transformer的算法,能够在视频中实现3D人体姿态估计,通过对空间和时间进行变换,对每一帧中人体关节关系进行建模,并在中心帧上输出准确的3D人体姿态,该算法在Human3.6M和MPI-INF-3DHP数据集上实现了最先进的成果。
Mar, 2021
本文提出了一种姿势导向的自注意机制和基于距离的位置嵌入的Pose-Oriented Transformer(POT)以明确利用人类骨骼拓扑,并通过考虑每个关节的预测不确定度进行不确定性引导的采样策略和自注注意机制来优化POT的姿态预测。实验结果表明,在3D HPE基准测试中,我们的方法在减少模型参数并且比其他最先进方法的性能显著提高。
Feb, 2023
提出一种基于Transformer的模型,使用三种独立的tokens学习人体的3D关节旋转,身体形状和位置信息,进而估算SMPL参数,从而解决单目图像或视频中3D人体姿态和形状估计的困难问题,并具有较好性能。
Mar, 2023
本文提出了ConvFormer:一种新型的卷积变压器,新增了一种动态的多头卷积自注意机制用于单目3D人体姿势估计。通过对人体各关节点之间的关系进行建模,利用时间关节特征的新概念进行完全的时间信息融合,成功地在三个基准数据集上实现了SOTA水平的结果,相对于以前的变压器模型取得了显著的参数降低。
Apr, 2023
我们提出了一种新颖的Attention-GCNFormer(AGFormer)模块,通过使用两个并行的Transformer和GCNFormer流来减少通道数,以精确捕捉邻接关节之间的局部依赖关系。通过以适应性方式融合这两种表示,AGFormer模块在学习底层3D结构方面表现出更好的能力。通过堆叠多个AGFormer模块,我们提出了四个不同变体的MotionAGFormer模型,可以根据速度-准确性的权衡来选择。我们在两个常用基准数据集Human3.6M和MPI-INF-3DHP上评估了我们的模型。MotionAGFormer-B取得了最先进的结果,分别为38.4mm和16.2mm的P1错误率。值得注意的是,与Human3.6M数据集上的前一最先进模型相比,它使用了四分之一的参数,并且计算效率提高了三倍。该模型的代码和模型可在指定的网址上获得。
Oct, 2023
在这篇论文中,我们提出了一种全局方法来利用时空信息,采用紧凑的图和跳过Transformer架构实现高效的三维人体姿势估计。通过使用自适应拓扑的粗粒度身体部件构建空间图网络,在时序编码和解码阶段,使用简单有效的跳过Transformer捕捉长程时序依赖并实现分层特征聚合,同时引入动态信息到二维姿势序列中。通过在Human3.6M、MPI-INF-3DHP和Human-Eva基准测试集上进行广泛实验证明,G-SFormer系列方法相比之前的最新技术表现出更好的性能,仅具有约百分之十的参数量和显著降低的计算复杂度。此外,G-SFormer方法还对检测到的二维姿势不准确表现出卓越的鲁棒性。
Jul, 2024
该研究提出了一种融合基于体形结构图的表示和时空信息的时空图神经网络建模框架,以解决视频中三维人体姿势估计中深度模糊所带来的挑战。通过引入融合图信息的注意力机制以及在参数使用和特征学习方面的优化处理,该方法在Human3.6M和MPI-INF-3DHP数据集上实现了领先水平的三维人体姿势估计性能。
Jul, 2024
本研究解决了单目视频中三维人体姿态估计面临的严重遮挡问题。提出了一种新的双重变换器融合算法,结合时间插值的遮挡引导机制,以实现准确的三维姿态估计。实验结果表明,该方法在Human3.6M和MPI-INF-3DHP数据集上均优于现有的最先进方法,具有显著的改善效果。
Oct, 2024