TransPose: 基于Transformer的关键点定位
本文提出一种基于深度神经网络的人体姿势估计方法,将姿势估计表示为一种基于DNN的回归问题,通过级联DNN回归器来提高姿势估计的精确性,并在四种不同类型的学术基准测试中取得了优异的实验结果。
Dec, 2013
本文提出了一种新的基于卷积神经网络的人体姿势估计的架构和改进的学习技术,能够学习底层特征和高级弱空间模型,在姿态估计中比现有传统架构实现了显著改善。同时,本文探讨了一些研究中发现的经验教训,表明在一些情况下,甚至仅涵盖图像中的几个像素的特征检测器也可以产生出强的特征检测结果,并且高级空间模型对姿势估计的改善效果相对较小。本文的主要贡献在于展示了一种特定变体的深度学习可以在该任务上胜过所有现有传统架构。
Dec, 2013
使用深度卷积神经网络和图形模型,从单个静态图像中估计人的关节姿势,利用局部图像测量,定义图形模型并尝试预测它们之间的空间关系,从而充分利用图像相关联的先验知识。
Jul, 2014
本研究提出了一种通过将卷积网络与姿态机器学习框架相结合的系统设计来学习图像特征和图像相关的空间模型,以实现姿态估计的任务,并解决了训练过程中梯度消失的问题,其通过提供自然的学习目标函数来约束学习过程,最终在MPII, LSP和FLIC等标准基准测试中实现了最先进的性能表现并超越了竞争方法。
Jan, 2016
本文提出一种利用深度图像结合卷积神经网络实现快速且可靠的多人姿态估计算法的方案,可以有效地应用于人机交互领域;具体贡献包括提出了基于残差块的快速网络、构建了包括170k多张人体合成图像与真实标注数据在内的公开数据集用于评估,证明了该模型在真实数据上性能良好。
Oct, 2019
本研究提出一种基于transformer的算法,能够在视频中实现3D人体姿态估计,通过对空间和时间进行变换,对每一帧中人体关节关系进行建模,并在中心帧上输出准确的3D人体姿态,该算法在Human3.6M和MPI-INF-3DHP数据集上实现了最先进的成果。
Mar, 2021
本研究提出了一种称为POET(POse Estimation Transformer)的端到端可训练的多实例姿态估计方法,通过将卷积神经网络与变压器编解码器结合,直接将多实例姿态估计从图像中预测出来。我们使用一种新的全局集合损失来训练POET,包括关键点损失,可见性损失和类别损失,证明其在COCO关键点检测任务上具有高精度和高速度。此外,我们还展示了将POET应用于动物姿态估计时的成功迁移学习。这是第一个端到端可训练的多实例姿态估计方法,是一个有前途的替代方法。
Mar, 2021
本文提出了一种基于Token表示的人体姿态估计方法(TokenPose),该方法可以通过学习图像中的外貌线索和约束关系来对关键点进行显式嵌入,与现有CNN方法相比,TokenPose在参数和GFLOPs等方面均有所减少,但仍然可以达到与CNN的同等水平,代码公开。
Apr, 2021
本文提出了ConvFormer:一种新型的卷积变压器,新增了一种动态的多头卷积自注意机制用于单目3D人体姿势估计。通过对人体各关节点之间的关系进行建模,利用时间关节特征的新概念进行完全的时间信息融合,成功地在三个基准数据集上实现了SOTA水平的结果,相对于以前的变压器模型取得了显著的参数降低。
Apr, 2023
在这篇论文中,我们引入了稀疏性来改善人体姿势估计,在MPII数据集上的实验证明了我们的模型具有更高的准确性和新的最先进结果,并且对其他基于Transformer的模型提供了参考。
Nov, 2023