改进的 TokenPose 与稀疏性
该论文提出了一种基于 Transformer 的 2D 人体姿态估计方法 ——Token-Pruned Pose Transformer(PPT)及其多视点姿态估计扩展,使用自我注意力仅在选定的标记中进行计算,采用一种名为人体区域融合的新的跨视图融合策略,通过在多视角中对来自多视点的提示进行高效融合,进而实现了与以前人体姿态 Transformer 方法相同的准确度,同时减少了计算量,并在 Human 3.6M 和 Ski-Pose 数据集上取得了新的最优结果。
Sep, 2022
本文提出了一种基于 Token 表示的人体姿态估计方法(TokenPose),该方法可以通过学习图像中的外貌线索和约束关系来对关键点进行显式嵌入,与现有 CNN 方法相比,TokenPose 在参数和 GFLOPs 等方面均有所减少,但仍然可以达到与 CNN 的同等水平,代码公开。
Apr, 2021
提出了一种名为 Distilling Pruned-Token Transformer 的人体姿势估计方法,它主要利用 TokenPose 的输出来监督 PPT 的学习过程,并且实验证明它可以在显著提高 PCK 的同时降低计算复杂度。
Apr, 2023
提出了一种基于 Transformer 的 3D 人体姿态估计的剪枝和恢复框架,通过选择具有高语义多样性和消除视频帧冗余的少量代表性 Token,在中间 Transformer 块中有效地提高模型效率。
Nov, 2023
提出一种基于 Transformer 的模型,使用三种独立的 tokens 学习人体的 3D 关节旋转,身体形状和位置信息,进而估算 SMPL 参数,从而解决单目图像或视频中 3D 人体姿态和形状估计的困难问题,并具有较好性能。
Mar, 2023
我们提出了一个多阶段的 3D 序列到序列人体姿势检测框架,利用变压器的自注意力机制从多视角视频数据中捕捉空间 - 时间相关性,实验结果表明我们的方法在 Human3.6M 数据集上表现出色。
Jan, 2024
我们提出了一种新方法,通过学习在训练过程中选择最具信息量的令牌表示方法来稀疏 Transformer 模型中的注意力,从而关注输入的特定部分。由于一个强大的可训练的 top-k 操作符,将二次时间和内存复杂度降低到亚线性水平。我们在一个具有挑战性的长文档摘要任务上的实验表明,即使是我们的简单基线表现也与当前的 SOTA 相当,通过可训练的池化技术,我们可以保持其最高质量,在训练过程中快 1.8 倍,推理时快 4.5 倍,并且在解码器中计算效率高达 13 倍。
Sep, 2020
本文介绍了一种名为 TransPose 的模型,它是用 Transformer 来进行人体姿态估计的,能够有效地捕捉长距离的关系以及细粒度的图像依赖关系,并通过产生热力图来进行关键点的定位。基于此,模型可以实现更快速的处理速度和更轻量化的模型结构。
Dec, 2020
从单个图像中推断 3D 人体姿态和形状的问题,重点关注 3D 准确性。目前最好的方法利用大量的 3D 伪地面真值 (p-GT) 和 2D 关键点数据集,以实现稳健性能。我们观察到,随着 2D 准确性的提高,3D 姿势准确性出现矛盾下降。错误的 3D 姿势是由于当前相机模型的偏差和 2D 关键点与 p-GT 的准确匹配引起的。我们定量化了当前相机模型引入的误差,并证明精确拟合 2D 关键点和 p-GT 会导致错误的 3D 姿势。我们提出了新的阈值自适应损失缩放 (TALS) 来惩罚较大的 2D 和 p-GT 损失,但不惩罚较小的损失。此方法可以解释 2D 数据的多个 3D 姿势,为了减少模糊性,我们需要一个先验来限制人体姿势的有效空间,我们利用人体姿势的 Token 编码重新定义了问题,这有效地引入了一个统一的先验。基于 EMDB 和 3DPW 数据集的大量实验证明,我们改进的关键点损失和 Token 编码使我们能够在野外数据上进行训练,并提高了 3D 准确性,我们的模型和代码可供研究使用。
Apr, 2024