用于单阶段多人姿态估计的混合模型
该研究提出了基于深度卷积去卷积模型的鲁棒人体姿态估计方法,通过多尺度的上下文监督和全局回归的方式增强模型的姿态鲁棒性,并在 MPII 和 FLIC 数据集上展示了具有竞争力的性能。
Aug, 2018
本文介绍了一种基于向下拼接的人体姿态估计框架,其中通过关键点检测和聚类两个阶段进行处理。在该框架下,本文提出了多种方案,包括使用关键点热图进行像素级别的关键点回归、采用像素级别空间变换网络学习适应性表示处理尺度和方向差异并提高关键点回归质量,以及使用联合形状和热值评分方案提升预测姿态的可靠性,最终获得了最先进的人体底部向上姿态估计结果。
Jun, 2020
本文提出了一种新颖的 ConvNet 模型,可预测图像中的 2D 人体姿势,通过回归每个关键点的热度图表示,并能够学习和表示部件外观和配置上下文。模型可以从头开始和端到端训练,用于改善性能的辅助损失。该模型在两个基准数据集上进行了评估,具有与最先进技术相当的性能,但不含有图形模型阶段(或层)的复杂性。
May, 2016
该论文提出了一种用于多人检测和二维姿势估计的方法,采用两个阶段的简单而强大的自上而下方法,结合使用 Faster RCNN 检测器、关键点基于非最大抑制(Non-Maximum-Suppression)和置信度计算,利用 COCO 数据集训练得到的该系统具有较高的平均精度和表现。
Jan, 2017
研究单阶段方法与多阶段方法在姿态估计领域的性能表现,提出了单阶段模块设计、跨阶段特征聚合和粗到细的监督等改进建议,所得方法在 MS COCO 和 MPII Human Pose 数据集上都取得了新的最优表现,证明了多阶段架构的有效性。
Jan, 2019
本文介绍了一种使用级联 Transformer 的基于回归的姿势识别方法,利用编码器 - 解码器结构实现了人体和关键点检测的回归,通过不同自注意力层中的关键点假设改进来展示了 Transformer 中的递归自注意力机制,并与竞争的回归方法进行比较得到了有竞争力的结果。
Apr, 2021
提出了一种基于 Transformer 网络的 2D 人体姿势估计方法,直接将图像转换为坐标进行回归预测,并利用自适应注意力机制来提高关键点坐标预测精度,实现了在 MS-COCO 数据集上超越同类方法的目标。
Jan, 2022
本研究利用卷积神经网络进行人体姿态估计,通过利用关系和空间上下文,提出了一种特殊的 CNN 级联架构,并能够在部分遮挡的情况下,鲁棒地推断姿势,该级联架构能够指导网络集中精力在图像的哪个位置,并明确编码部分限制和上下文约束,并能够应对遮挡。我们的级联结构表现出色,能够在 MPII 和 LSP 数据集上取得最佳的表现。
Sep, 2016
本文提出了一种多尺度结构感知神经网络,通过多尺度监督、多尺度回归网络、中间监督和结构感知损失以及关键点掩蔽训练方案等四个方面对深度卷积 - 反卷积沙漏模型进行改进,以有效地提高人体姿势估计的性能。该网络不仅可以解决尺度差异、遮挡和复杂多人场景等问题,而且可以全局优化多尺度特征的结构匹配,并在 MPII 挑战排行榜上取得了领先地位。
Mar, 2018
通过提出的 HG-RCNN 网络,借助 Mask-RCNN 和 Hourglass 结构进行多人 3D 人体姿态估计,实现对每个感兴趣区域(RoI)中 2D 关键点的先预测后提升,最终采用弱透视投影模型和焦距和根偏移的联合优化将估计的 3D 姿态置于相机坐标系下,该网络简单模块化且无需多人 3D 姿态数据集,取得了 MuPoTS-3D 数据集的最优性能,并能近似在相机坐标系下估计 3D 姿态。
Sep, 2019