高效Transformer的沙漏分词技术用于3D人体姿势估计
本研究提出一种基于transformer的算法,能够在视频中实现3D人体姿态估计,通过对空间和时间进行变换,对每一帧中人体关节关系进行建模,并在中心帧上输出准确的3D人体姿态,该算法在Human3.6M和MPI-INF-3DHP数据集上实现了最先进的成果。
Mar, 2021
本文提出改进的基于Transformer的Strided Transformer架构,以简单有效地将冗余的2D姿势序列提升到单个3D姿势。通过给Vanilla Transformer编码器换成步幅卷积的方式,降低了序列的冗余性,同时设计了全-单监督方案来约束输出,从而在两个基准数据集上获得了最佳结果并减少了参数。
Mar, 2021
该论文提出了一种基于Transformer的2D人体姿态估计方法——Token-Pruned Pose Transformer(PPT)及其多视点姿态估计扩展,使用自我注意力仅在选定的标记中进行计算,采用一种名为人体区域融合的新的跨视图融合策略,通过在多视角中对来自多视点的提示进行高效融合,进而实现了与以前人体姿态Transformer方法相同的准确度,同时减少了计算量,并在Human 3.6M和Ski-Pose数据集上取得了新的最优结果。
Sep, 2022
本文提出了一种基于 Transformer 的姿势提升方案,能够处理时间上稀疏的二维姿势序列,但仍能产生时间上密集的三维姿势估计。其采用掩码令牌建模来实现 Transformer 块内的时间上采样,可以大大降低总计算复杂度。在 Human3.6M 和 MPI-INF-3DHP 上评估表明,相对于现有的方法,所提出的方法在保持准确性的同时将推理时间降低了12倍,这提高了在不同应用中使用可变消费者硬件的实时吞吐量。
Oct, 2022
提出一种基于Transformer的模型,使用三种独立的tokens学习人体的3D关节旋转,身体形状和位置信息,进而估算SMPL参数,从而解决单目图像或视频中3D人体姿态和形状估计的困难问题,并具有较好性能。
Mar, 2023
本文提出了ConvFormer:一种新型的卷积变压器,新增了一种动态的多头卷积自注意机制用于单目3D人体姿势估计。通过对人体各关节点之间的关系进行建模,利用时间关节特征的新概念进行完全的时间信息融合,成功地在三个基准数据集上实现了SOTA水平的结果,相对于以前的变压器模型取得了显著的参数降低。
Apr, 2023
提出了一种名为Distilling Pruned-Token Transformer的人体姿势估计方法,它主要利用TokenPose的输出来监督PPT的学习过程,并且实验证明它可以在显著提高PCK的同时降低计算复杂度。
Apr, 2023
在这篇论文中,我们引入了稀疏性来改善人体姿势估计,在MPII数据集上的实验证明了我们的模型具有更高的准确性和新的最先进结果,并且对其他基于Transformer的模型提供了参考。
Nov, 2023
从单个图像中推断3D人体姿态和形状的问题,重点关注3D准确性。目前最好的方法利用大量的3D伪地面真值(p-GT)和2D关键点数据集,以实现稳健性能。我们观察到,随着2D准确性的提高,3D姿势准确性出现矛盾下降。错误的3D姿势是由于当前相机模型的偏差和2D关键点与p-GT的准确匹配引起的。我们定量化了当前相机模型引入的误差,并证明精确拟合2D关键点和p-GT会导致错误的3D姿势。我们提出了新的阈值自适应损失缩放(TALS)来惩罚较大的2D和p-GT损失,但不惩罚较小的损失。此方法可以解释2D数据的多个3D姿势,为了减少模糊性,我们需要一个先验来限制人体姿势的有效空间,我们利用人体姿势的Token编码重新定义了问题,这有效地引入了一个统一的先验。基于EMDB和3DPW数据集的大量实验证明,我们改进的关键点损失和Token编码使我们能够在野外数据上进行训练,并提高了3D准确性,我们的模型和代码可供研究使用。
Apr, 2024
通过引入逐步引入关键点的粗到细操作,Group-based Token Pruning Transformer (GTPT)有效降低了计算负担并确保高性能的有效人体姿态估计方法。通过将关键点令牌分组和修剪视觉令牌来提高模型性能并减少冗余,同时利用Multi-Head Group Attention (MHGA)实现全局交互。实验结果表明,GTPT在整体和全身多姿态的情况下,能够以较少的计算能力实现更高的性能。
Jul, 2024