高效 Transformer 的沙漏分词技术用于 3D 人体姿势估计
该论文提出了一种基于 Transformer 的 2D 人体姿态估计方法 ——Token-Pruned Pose Transformer(PPT)及其多视点姿态估计扩展,使用自我注意力仅在选定的标记中进行计算,采用一种名为人体区域融合的新的跨视图融合策略,通过在多视角中对来自多视点的提示进行高效融合,进而实现了与以前人体姿态 Transformer 方法相同的准确度,同时减少了计算量,并在 Human 3.6M 和 Ski-Pose 数据集上取得了新的最优结果。
Sep, 2022
提出了一种名为 Distilling Pruned-Token Transformer 的人体姿势估计方法,它主要利用 TokenPose 的输出来监督 PPT 的学习过程,并且实验证明它可以在显著提高 PCK 的同时降低计算复杂度。
Apr, 2023
在这篇论文中,我们引入了稀疏性来改善人体姿势估计,在 MPII 数据集上的实验证明了我们的模型具有更高的准确性和新的最先进结果,并且对其他基于 Transformer 的模型提供了参考。
Nov, 2023
提出一种基于 Transformer 的模型,使用三种独立的 tokens 学习人体的 3D 关节旋转,身体形状和位置信息,进而估算 SMPL 参数,从而解决单目图像或视频中 3D 人体姿态和形状估计的困难问题,并具有较好性能。
Mar, 2023
从单个图像中推断 3D 人体姿态和形状的问题,重点关注 3D 准确性。目前最好的方法利用大量的 3D 伪地面真值 (p-GT) 和 2D 关键点数据集,以实现稳健性能。我们观察到,随着 2D 准确性的提高,3D 姿势准确性出现矛盾下降。错误的 3D 姿势是由于当前相机模型的偏差和 2D 关键点与 p-GT 的准确匹配引起的。我们定量化了当前相机模型引入的误差,并证明精确拟合 2D 关键点和 p-GT 会导致错误的 3D 姿势。我们提出了新的阈值自适应损失缩放 (TALS) 来惩罚较大的 2D 和 p-GT 损失,但不惩罚较小的损失。此方法可以解释 2D 数据的多个 3D 姿势,为了减少模糊性,我们需要一个先验来限制人体姿势的有效空间,我们利用人体姿势的 Token 编码重新定义了问题,这有效地引入了一个统一的先验。基于 EMDB 和 3DPW 数据集的大量实验证明,我们改进的关键点损失和 Token 编码使我们能够在野外数据上进行训练,并提高了 3D 准确性,我们的模型和代码可供研究使用。
Apr, 2024
本文介绍了一种利用过去帧信息运用自注意的 3D 人体姿态估计方法 ——Ego-STAN,通过引入 spatio-temporal Transformer 模型和 feature map tokens 实现对大规模训练的加速与计算效率的提高,并在实验中表现出卓越的性能。
Jun, 2022
本文提出了一种基于 Transformer 的姿势提升方案,能够处理时间上稀疏的二维姿势序列,但仍能产生时间上密集的三维姿势估计。其采用掩码令牌建模来实现 Transformer 块内的时间上采样,可以大大降低总计算复杂度。在 Human3.6M 和 MPI-INF-3DHP 上评估表明,相对于现有的方法,所提出的方法在保持准确性的同时将推理时间降低了 12 倍,这提高了在不同应用中使用可变消费者硬件的实时吞吐量。
Oct, 2022
本文提出了一种姿势导向的自注意机制和基于距离的位置嵌入的 Pose-Oriented Transformer (POT) 以明确利用人类骨骼拓扑,并通过考虑每个关节的预测不确定度进行不确定性引导的采样策略和自注注意机制来优化 POT 的姿态预测。实验结果表明,在 3D HPE 基准测试中,我们的方法在减少模型参数并且比其他最先进方法的性能显著提高。
Feb, 2023
通过整合鲁棒性 2D 姿态表示,PostoMETRO(Pose token enhanced Mesh TRANSformer)在变压器模型中以令牌方式恢复 3D 坐标,从而提高单张图像人体网格恢复的性能,尤其在遮挡等极端场景下的准确性和清晰度。
Mar, 2024
在这篇论文中,我们提出了一种全局方法来利用时空信息,采用紧凑的图和跳过 Transformer 架构实现高效的三维人体姿势估计。通过使用自适应拓扑的粗粒度身体部件构建空间图网络,在时序编码和解码阶段,使用简单有效的跳过 Transformer 捕捉长程时序依赖并实现分层特征聚合,同时引入动态信息到二维姿势序列中。通过在 Human3.6M、MPI-INF-3DHP 和 Human-Eva 基准测试集上进行广泛实验证明,G-SFormer 系列方法相比之前的最新技术表现出更好的性能,仅具有约百分之十的参数量和显著降低的计算复杂度。此外,G-SFormer 方法还对检测到的二维姿势不准确表现出卓越的鲁棒性。
Jul, 2024