用于单阶段多人姿态估计的混合模型

May, 2023

用于单阶段多人姿态估计的混合模型

Hybrid model for Single-Stage Multi-Person Pose Estimation

Jonghyun Kim, Bosang Kim, Hyotae Lee, Jungpyo Kim, Wonhyeok Im...

TL;DR本研究提出了一个称为 HybridPose 的混合模型，通过最大化两种方法的优点来互相克服它们的缺点，同时引入自相关损失来注入关键点坐标和可见性之间的空间依赖性，从而在不降低姿势估计准确性的情况下展示了关键点的可见性。

Abstract

In general, human pose estimation methods are categorized into two approaches according to their architectures: regression (i.e., heatmap-free) and →

human pose estimation regression heatmap-based hybridpose self-correlation loss

发现论文，激发创造

多尺度监督网络用于人体姿态估计

该研究提出了基于深度卷积去卷积模型的鲁棒人体姿态估计方法，通过多尺度的上下文监督和全局回归的方式增强模型的姿态鲁棒性，并在 MPII 和 FLIC 数据集上展示了具有竞争力的性能。

Aug, 2018

基于热图引导的自适应关键点排序的底层人体姿态估计

本文介绍了一种基于向下拼接的人体姿态估计框架，其中通过关键点检测和聚类两个阶段进行处理。在该框架下，本文提出了多种方案，包括使用关键点热图进行像素级别的关键点回归、采用像素级别空间变换网络学习适应性表示处理尺度和方向差异并提高关键点回归质量，以及使用联合形状和热值评分方案提升预测姿态的可靠性，最终获得了最先进的人体底部向上姿态估计结果。

Jun, 2020

循环人体姿态估计

本文提出了一种新颖的 ConvNet 模型，可预测图像中的 2D 人体姿势，通过回归每个关键点的热度图表示，并能够学习和表示部件外观和配置上下文。模型可以从头开始和端到端训练，用于改善性能的辅助损失。该模型在两个基准数据集上进行了评估，具有与最先进技术相当的性能，但不含有图形模型阶段（或层）的复杂性。

May, 2016

大规模多人姿态估计的精度提升

该论文提出了一种用于多人检测和二维姿势估计的方法，采用两个阶段的简单而强大的自上而下方法，结合使用 Faster RCNN 检测器、关键点基于非最大抑制（Non-Maximum-Suppression）和置信度计算，利用 COCO 数据集训练得到的该系统具有较高的平均精度和表现。

Jan, 2017

重新思考多级网络用于人体姿态估计

研究单阶段方法与多阶段方法在姿态估计领域的性能表现，提出了单阶段模块设计、跨阶段特征聚合和粗到细的监督等改进建议，所得方法在 MS COCO 和 MPII Human Pose 数据集上都取得了新的最优表现，证明了多阶段架构的有效性。

Jan, 2019

级联变形器进行姿态识别

本文介绍了一种使用级联 Transformer 的基于回归的姿势识别方法，利用编码器 - 解码器结构实现了人体和关键点检测的回归，通过不同自注意力层中的关键点假设改进来展示了 Transformer 中的递归自注意力机制，并与竞争的回归方法进行比较得到了有竞争力的结果。

Apr, 2021

Poseur：基于 Transformer 的直接人体姿势回归

提出了一种基于 Transformer 网络的 2D 人体姿势估计方法，直接将图像转换为坐标进行回归预测，并利用自适应注意力机制来提高关键点坐标预测精度，实现了在 MS-COCO 数据集上超越同类方法的目标。

Jan, 2022

基于卷积部位热图回归的人体姿态估计

本研究利用卷积神经网络进行人体姿态估计，通过利用关系和空间上下文，提出了一种特殊的 CNN 级联架构，并能够在部分遮挡的情况下，鲁棒地推断姿势，该级联架构能够指导网络集中精力在图像的哪个位置，并明确编码部分限制和上下文约束，并能够应对遮挡。我们的级联结构表现出色，能够在 MPII 和 LSP 数据集上取得最佳的表现。

Sep, 2016

人体姿态估计的多尺度结构感知网络

本文提出了一种多尺度结构感知神经网络，通过多尺度监督、多尺度回归网络、中间监督和结构感知损失以及关键点掩蔽训练方案等四个方面对深度卷积 - 反卷积沙漏模型进行改进，以有效地提高人体姿势估计的性能。该网络不仅可以解决尺度差异、遮挡和复杂多人场景等问题，而且可以全局优化多尺度特征的结构匹配，并在 MPII 挑战排行榜上取得了领先地位。

Mar, 2018

从单目图像估计多人三维人体姿态

通过提出的 HG-RCNN 网络，借助 Mask-RCNN 和 Hourglass 结构进行多人 3D 人体姿态估计，实现对每个感兴趣区域（RoI）中 2D 关键点的先预测后提升，最终采用弱透视投影模型和焦距和根偏移的联合优化将估计的 3D 姿态置于相机坐标系下，该网络简单模块化且无需多人 3D 姿态数据集，取得了 MuPoTS-3D 数据集的最优性能，并能近似在相机坐标系下估计 3D 姿态。

Sep, 2019