GTPT: 基于组别的令牌修剪变换器用于高效的人体姿势估计
该论文提出了一种基于Transformer的2D人体姿态估计方法——Token-Pruned Pose Transformer(PPT)及其多视点姿态估计扩展,使用自我注意力仅在选定的标记中进行计算,采用一种名为人体区域融合的新的跨视图融合策略,通过在多视角中对来自多视点的提示进行高效融合,进而实现了与以前人体姿态Transformer方法相同的准确度,同时减少了计算量,并在Human 3.6M和Ski-Pose数据集上取得了新的最优结果。
Sep, 2022
本文提出了一种基于 Transformer 的姿势提升方案,能够处理时间上稀疏的二维姿势序列,但仍能产生时间上密集的三维姿势估计。其采用掩码令牌建模来实现 Transformer 块内的时间上采样,可以大大降低总计算复杂度。在 Human3.6M 和 MPI-INF-3DHP 上评估表明,相对于现有的方法,所提出的方法在保持准确性的同时将推理时间降低了12倍,这提高了在不同应用中使用可变消费者硬件的实时吞吐量。
Oct, 2022
提出一种基于Transformer的模型,使用三种独立的tokens学习人体的3D关节旋转,身体形状和位置信息,进而估算SMPL参数,从而解决单目图像或视频中3D人体姿态和形状估计的困难问题,并具有较好性能。
Mar, 2023
提出了一种名为Distilling Pruned-Token Transformer的人体姿势估计方法,它主要利用TokenPose的输出来监督PPT的学习过程,并且实验证明它可以在显著提高PCK的同时降低计算复杂度。
Apr, 2023
通过简单且有效的Transformer方法,命名为Group Pose,我们研究了无人工盒监督的端到端多人姿态估计问题,取得了优于复杂解码器的性能。
Aug, 2023
我们提出了一种新颖的Attention-GCNFormer(AGFormer)模块,通过使用两个并行的Transformer和GCNFormer流来减少通道数,以精确捕捉邻接关节之间的局部依赖关系。通过以适应性方式融合这两种表示,AGFormer模块在学习底层3D结构方面表现出更好的能力。通过堆叠多个AGFormer模块,我们提出了四个不同变体的MotionAGFormer模型,可以根据速度-准确性的权衡来选择。我们在两个常用基准数据集Human3.6M和MPI-INF-3DHP上评估了我们的模型。MotionAGFormer-B取得了最先进的结果,分别为38.4mm和16.2mm的P1错误率。值得注意的是,与Human3.6M数据集上的前一最先进模型相比,它使用了四分之一的参数,并且计算效率提高了三倍。该模型的代码和模型可在指定的网址上获得。
Oct, 2023
在这篇论文中,我们引入了稀疏性来改善人体姿势估计,在MPII数据集上的实验证明了我们的模型具有更高的准确性和新的最先进结果,并且对其他基于Transformer的模型提供了参考。
Nov, 2023
提出了一种基于Transformer的3D人体姿态估计的剪枝和恢复框架,通过选择具有高语义多样性和消除视频帧冗余的少量代表性Token,在中间Transformer块中有效地提高模型效率。
Nov, 2023
SDPose是一种新的自我蒸馏方法,它基于多周期前向传播设计了一个名为MCT的transformer模块来提高小型transformer模型的性能,同时通过将MCT模块的知识提取到一个简单的前向模型中,避免了额外的计算。
Apr, 2024
在这篇论文中,我们提出了一种全局方法来利用时空信息,采用紧凑的图和跳过Transformer架构实现高效的三维人体姿势估计。通过使用自适应拓扑的粗粒度身体部件构建空间图网络,在时序编码和解码阶段,使用简单有效的跳过Transformer捕捉长程时序依赖并实现分层特征聚合,同时引入动态信息到二维姿势序列中。通过在Human3.6M、MPI-INF-3DHP和Human-Eva基准测试集上进行广泛实验证明,G-SFormer系列方法相比之前的最新技术表现出更好的性能,仅具有约百分之十的参数量和显著降低的计算复杂度。此外,G-SFormer方法还对检测到的二维姿势不准确表现出卓越的鲁棒性。
Jul, 2024