TokenPose:学习人体姿势估计的关键点标记
本文提出一种基于深度神经网络的人体姿势估计方法,将姿势估计表示为一种基于DNN的回归问题,通过级联DNN回归器来提高姿势估计的精确性,并在四种不同类型的学术基准测试中取得了优异的实验结果。
Dec, 2013
本文提出了一种简单、轻量级的人体姿态估计方法LPN,它采用深度可分离卷积和注意力机制来设计轻量级的bottleneck模块,并基于此设计了LPN网络。我们的网络仅有 SimpleBaseline(ResNet50)大小的9%和复杂度的11%,并提出了迭代训练和模型无关的Beta-Soft-Argmax后处理方法,在COCO关键点检测数据集上达到了较高的精度和效率
Nov, 2019
本文介绍了一种名为TransPose的模型,它是用Transformer来进行人体姿态估计的,能够有效地捕捉长距离的关系以及细粒度的图像依赖关系,并通过产生热力图来进行关键点的定位。基于此,模型可以实现更快速的处理速度和更轻量化的模型结构。
Dec, 2020
该论文提出了一种从单个RGB图像中估计物体连续6-DoF姿态的方法,该方法结合了经卷积网络预测的语义关键点和可变形的形状模型,同时采用了半自动数据生成技术来训练可学习组件,在实验中该方法达到了与现有技术相当的结果。
Apr, 2022
提出一种基于Transformer的模型,使用三种独立的tokens学习人体的3D关节旋转,身体形状和位置信息,进而估算SMPL参数,从而解决单目图像或视频中3D人体姿态和形状估计的困难问题,并具有较好性能。
Mar, 2023
提出了一种名为 PCT 的结构化表示方法,将人体姿势表示为 M 个离散的标记,以探索关节依赖关系,同时将姿势估计作为分类任务。实现了较低代价下小的重构误差,能够在遮挡情况下仍具备较好的表现。
Mar, 2023
在这篇论文中,我们引入了稀疏性来改善人体姿势估计,在MPII数据集上的实验证明了我们的模型具有更高的准确性和新的最先进结果,并且对其他基于Transformer的模型提供了参考。
Nov, 2023
SDPose是一种新的自我蒸馏方法,它基于多周期前向传播设计了一个名为MCT的transformer模块来提高小型transformer模型的性能,同时通过将MCT模块的知识提取到一个简单的前向模型中,避免了额外的计算。
Apr, 2024
从单个图像中推断3D人体姿态和形状的问题,重点关注3D准确性。目前最好的方法利用大量的3D伪地面真值(p-GT)和2D关键点数据集,以实现稳健性能。我们观察到,随着2D准确性的提高,3D姿势准确性出现矛盾下降。错误的3D姿势是由于当前相机模型的偏差和2D关键点与p-GT的准确匹配引起的。我们定量化了当前相机模型引入的误差,并证明精确拟合2D关键点和p-GT会导致错误的3D姿势。我们提出了新的阈值自适应损失缩放(TALS)来惩罚较大的2D和p-GT损失,但不惩罚较小的损失。此方法可以解释2D数据的多个3D姿势,为了减少模糊性,我们需要一个先验来限制人体姿势的有效空间,我们利用人体姿势的Token编码重新定义了问题,这有效地引入了一个统一的先验。基于EMDB和3DPW数据集的大量实验证明,我们改进的关键点损失和Token编码使我们能够在野外数据上进行训练,并提高了3D准确性,我们的模型和代码可供研究使用。
Apr, 2024
KGpose是一个新的端到端框架,用于多个物体的6D位姿估计。通过关键点图的学习姿势回归,KGpose首先使用RGB和点云特征的多模态特征融合来估计每个物体的3D关键点,然后将这些关键点转换为图表示。网络通过一系列的关键点图嵌入和局部图嵌入直接回归每个点的6D位姿参数,最终选择每个物体的姿态。KGpose在基准数据集上取得了竞争性的结果,展示了我们模型的有效性。为机器人应用提供了一种无需额外定位步骤的多物体姿态估计的统一且高效的解决方案,用于理解复杂场景中的几何背景。
Jul, 2024