TokenPose：学习人体姿势估计的关键点标记

Apr, 2021

TokenPose：学习人体姿势估计的关键点标记

TokenPose: Learning Keypoint Tokens for Human Pose Estimation

Yanjie Li, Shoukui Zhang, Zhicheng Wang, Sen Yang, Wankou Yang...

TL;DR本文提出了一种基于Token表示的人体姿态估计方法（TokenPose），该方法可以通过学习图像中的外貌线索和约束关系来对关键点进行显式嵌入，与现有CNN方法相比，TokenPose在参数和GFLOPs等方面均有所减少，但仍然可以达到与CNN的同等水平，代码公开。

Abstract

human pose estimation deeply relies on visual clues and anatomical constraints between parts to locate keypoints. Most existing

发现论文，激发创造

DeepPose: 使用深度神经网络进行人体姿势估计

本文提出一种基于深度神经网络的人体姿势估计方法，将姿势估计表示为一种基于DNN的回归问题，通过级联DNN回归器来提高姿势估计的精确性，并在四种不同类型的学术基准测试中取得了优异的实验结果。

Dec, 2013

简单轻量级人体姿态估计

本文提出了一种简单、轻量级的人体姿态估计方法LPN，它采用深度可分离卷积和注意力机制来设计轻量级的bottleneck模块，并基于此设计了LPN网络。我们的网络仅有 SimpleBaseline（ResNet50）大小的9%和复杂度的11%，并提出了迭代训练和模型无关的Beta-Soft-Argmax后处理方法，在COCO关键点检测数据集上达到了较高的精度和效率

Nov, 2019

TransPose: 基于Transformer的关键点定位

本文介绍了一种名为TransPose的模型，它是用Transformer来进行人体姿态估计的，能够有效地捕捉长距离的关系以及细粒度的图像依赖关系，并通过产生热力图来进行关键点的定位。基于此，模型可以实现更快速的处理速度和更轻量化的模型结构。

Dec, 2020

单幅 RGB 帧的基于语义关键点的姿态估算

该论文提出了一种从单个RGB图像中估计物体连续6-DoF姿态的方法，该方法结合了经卷积网络预测的语义关键点和可变形的形状模型，同时采用了半自动数据生成技术来训练可学习组件，在实验中该方法达到了与现有技术相当的结果。

Apr, 2022

使用独立标记捕捉每个关节的动作：三维人体姿态和形状估计

提出一种基于Transformer的模型，使用三种独立的tokens学习人体的3D关节旋转，身体形状和位置信息，进而估算SMPL参数，从而解决单目图像或视频中3D人体姿态和形状估计的困难问题，并具有较好性能。

Mar, 2023

人体姿势的组合符号

提出了一种名为 PCT 的结构化表示方法，将人体姿势表示为 M 个离散的标记，以探索关节依赖关系，同时将姿势估计作为分类任务。实现了较低代价下小的重构误差，能够在遮挡情况下仍具备较好的表现。

Mar, 2023

改进的TokenPose与稀疏性

在这篇论文中，我们引入了稀疏性来改善人体姿势估计，在MPII数据集上的实验证明了我们的模型具有更高的准确性和新的最先进结果，并且对其他基于Transformer的模型提供了参考。

Nov, 2023

SDPose：基于循环引导自蒸馏的分词姿态估计

SDPose是一种新的自我蒸馏方法，它基于多周期前向传播设计了一个名为MCT的transformer模块来提高小型transformer模型的性能，同时通过将MCT模块的知识提取到一个简单的前向模型中，避免了额外的计算。

Apr, 2024

TokenHMR：使用令牌化姿态表示改善人体网格恢复

从单个图像中推断3D人体姿态和形状的问题，重点关注3D准确性。目前最好的方法利用大量的3D伪地面真值(p-GT)和2D关键点数据集，以实现稳健性能。我们观察到，随着2D准确性的提高，3D姿势准确性出现矛盾下降。错误的3D姿势是由于当前相机模型的偏差和2D关键点与p-GT的准确匹配引起的。我们定量化了当前相机模型引入的误差，并证明精确拟合2D关键点和p-GT会导致错误的3D姿势。我们提出了新的阈值自适应损失缩放(TALS)来惩罚较大的2D和p-GT损失，但不惩罚较小的损失。此方法可以解释2D数据的多个3D姿势，为了减少模糊性，我们需要一个先验来限制人体姿势的有效空间，我们利用人体姿势的Token编码重新定义了问题，这有效地引入了一个统一的先验。基于EMDB和3DPW数据集的大量实验证明，我们改进的关键点损失和Token编码使我们能够在野外数据上进行训练，并提高了3D准确性，我们的模型和代码可供研究使用。

Apr, 2024

KGpose: 基于关键点图驱动的端到端多物体6D姿态估计通过点位姿投票

KGpose是一个新的端到端框架，用于多个物体的6D位姿估计。通过关键点图的学习姿势回归，KGpose首先使用RGB和点云特征的多模态特征融合来估计每个物体的3D关键点，然后将这些关键点转换为图表示。网络通过一系列的关键点图嵌入和局部图嵌入直接回归每个点的6D位姿参数，最终选择每个物体的姿态。KGpose在基准数据集上取得了竞争性的结果，展示了我们模型的有效性。为机器人应用提供了一种无需额外定位步骤的多物体姿态估计的统一且高效的解决方案，用于理解复杂场景中的几何背景。

Jul, 2024