SDPose:基于循环引导自蒸馏的分词姿态估计
本文提出了一种基于Token表示的人体姿态估计方法(TokenPose),该方法可以通过学习图像中的外貌线索和约束关系来对关键点进行显式嵌入,与现有CNN方法相比,TokenPose在参数和GFLOPs等方面均有所减少,但仍然可以达到与CNN的同等水平,代码公开。
Apr, 2021
提出了一种基于 Transformer 网络的 2D 人体姿势估计方法,直接将图像转换为坐标进行回归预测,并利用自适应注意力机制来提高关键点坐标预测精度,实现了在 MS-COCO 数据集上超越同类方法的目标。
Jan, 2022
提出一种基于Transformer的模型,使用三种独立的tokens学习人体的3D关节旋转,身体形状和位置信息,进而估算SMPL参数,从而解决单目图像或视频中3D人体姿态和形状估计的困难问题,并具有较好性能。
Mar, 2023
本文提出了一种新的人体姿态估计框架DistilPose,它通过Token-distilling Encoder和Simulated Heatmaps将基于heatmap的和基于回归的方法结合起来,在保持有效性的同时显著提高了回归模型的性能。
Mar, 2023
本文提出了ConvFormer:一种新型的卷积变压器,新增了一种动态的多头卷积自注意机制用于单目3D人体姿势估计。通过对人体各关节点之间的关系进行建模,利用时间关节特征的新概念进行完全的时间信息融合,成功地在三个基准数据集上实现了SOTA水平的结果,相对于以前的变压器模型取得了显著的参数降低。
Apr, 2023
提出了一种名为Distilling Pruned-Token Transformer的人体姿势估计方法,它主要利用TokenPose的输出来监督PPT的学习过程,并且实验证明它可以在显著提高PCK的同时降低计算复杂度。
Apr, 2023
本研究提出了一种名为DWPose的两阶段姿势蒸馏方法,通过权重衰减策略和学生模型自身的蒸馏来提高全身姿势估计的有效性和效率,实验结果表明其在COCO-WholeBody数据集上取得了新的最佳性能,将整体AP从64.8%提升到66.5%,甚至超过了RTMPose-x教师模型的65.3% AP。
Jul, 2023
在这篇论文中,我们引入了稀疏性来改善人体姿势估计,在MPII数据集上的实验证明了我们的模型具有更高的准确性和新的最先进结果,并且对其他基于Transformer的模型提供了参考。
Nov, 2023
本文介绍了SoloPose,一种新颖的一次性、多对多的时空转换模型,用于视频中的运动学3D人体姿势估计。SoloPose进一步加强了HeatPose,一种基于高斯混合模型分布的3D热图,它对目标关键点和动力学相邻关键点进行因素分解。最后,我们通过3D AugMotion工具包解决了数据多样性限制问题,该方法通过将四个顶级公共3D人体姿势数据集(Humans3.6M、MADS、AIST Dance++、MPI INF 3DHP)投影到一个新的数据集(Humans7.1M)中,使用了一个通用的坐标系统。在Human3.6M和增强的Humans7.1M数据集上进行了大量实验证明,SoloPose相对于最先进的方法具有优越的结果。
Dec, 2023
通过多教师知识蒸馏与统一的骨骼表示相结合,我们提出了一种新颖的方法来解决姿态估计中不一致的骨骼注释所带来的挑战,同时提升了模型在不同数据集上的适应性,实现了更准确的康复7个主要关键点和21个扩展关键点的预测。
May, 2024