Skeleton Transformer Networks：从单张 RGB 图像提取 3D 人体姿态和皮肤网格

Dec, 2018

Skeleton Transformer Networks：从单张 RGB 图像提取 3D 人体姿态和皮肤网格

Skeleton Transformer Networks: 3D Human Pose and Skinned Mesh from Single RGB Image

Yusuke Yoshiyasu, Ryusuke Sagawa, Ko Ayusawa, Akihiko Murai

TL;DR该研究提出了一种名为 Skeleton Transformer Networks 的网络框架，可以通过单张彩色图像预测出人体骨架的 3D 关节点位置和 3D 角度姿态，并从而生成蒙皮网格动画。该框架采用两步回归方法进行骨骼旋转预测，其中第一步通过考虑骨架结构回归骨骼旋转以获得初始解，第二步则基于被称为交叉热图的三维姿态表示采用热图回归器进行精细化调整。实验表明，使用该框架训练的 3D 人体姿势数据集可以在野外环境下通过单张图像准确预测出人体的 3D 姿态。

Abstract

In this paper, we present skeleton transformer networks (SkeletonNet), an end-to-end framework that can predict not only 3d joint positions but also 3D angular pose (bone rotations) of a →

skeleton transformer networks 3d joint positions 3d angular pose human skeleton skinned mesh animations

发现论文，激发创造

Skeletor: 基于骨架的 Transformer 模型用于鲁棒的身体姿态估计

本篇研究旨在解决从一张单目视频中预测 3D 人体姿态的问题，提出了一种基于 Transformer 的网络 Skeletor，通过无监督学习学习运动的三维姿态与运动分布，有效克服低分辨率、模糊运动和部分骨骼损坏等问题，同时提高了 3D 人体姿态估计的性能。

Apr, 2021

用于从 2D 人体姿态估计中获得人体姿态和形状的模块化多阶段轻量级图转换网络

本文提出了一种基于图表的变形网络，实现了从二维人体姿态到三维人体姿态的估计和到三维人体网格参数的回归。该方法在保证精度的同时，优化了计算效率，具有广泛的实际应用价值。

Jan, 2023

提升手语三维姿态估计

通过将前向运动学与神经网络相结合，本研究提出了一种快速有效的方法，将图像中的二维关键点提升到三维骨架，预测关节旋转和骨长，并利用神经网络中的 FK 层与骨骼约束相结合，实现了对三维骨骼姿势的快速准确估计。在定量和定性评估中，我们证明了该方法在关节位置误差和视觉外观方面都比 MediaPipe 更准确，并且能够在不同数据集上进行泛化。基于 PyTorch 的实现仅使用 CPU，每张图像处理时间为 100-200 毫秒（包括 CNN 检测）。

Aug, 2023

Poseur：基于 Transformer 的直接人体姿势回归

提出了一种基于 Transformer 网络的 2D 人体姿势估计方法，直接将图像转换为坐标进行回归预测，并利用自适应注意力机制来提高关键点坐标预测精度，实现了在 MS-COCO 数据集上超越同类方法的目标。

Jan, 2022

自监督单张图像下的三维人体姿态估计

本论文提出了一种新的自我监督方法，通过训练不带标签的典型姿势图像数据集和未成对的 2D 姿势数据，从而实现了从单幅图像预测 3D 人体姿势的网络映射，可用于快速应用于其他人工结构（例如动物）的姿态估计。

Apr, 2023

从单色图像学习估计三维人体姿态和形状

该论文提出了一种基于卷积神经网络的直接预测方法，将参数化的统计全身形状模型与 2D 关键点和掩膜相结合，实现从单张彩色图像中估计全身的 3D 姿态和形状，得到了比先前基准更好的结果。

May, 2018

一个轻量级的图变换网络用于从 2D 人体姿势重建人体网格

本文提出了一种基于姿势的轻量级方法 GTRS，它可以从 2D 人类姿态重构人类网格。该方法利用图变换器来提取结构化和隐式的关节相关性以及网格模板来重构人类网格，从而大大提高了模型的效率和泛化性能。在 Human3.6M 和 3DPW 数据集上进行广泛的评估，GTRS 方法在仅使用 10.2％的参数和 2.5％的 FLOPs 的同时，比 SOTA 基于姿态的 Pose2Mesh 方法实现了更好的准确性。

Nov, 2021

使用深度神经网络进行 3D 人体姿态结构预测

本文提出了一种基于深度学习回归体系结构的 3D 人体姿势结构预测方法，该方法借助于过度完备的自动编码器并考虑关节从属关系，优于现有技术，包括结构保留和预测准确性两方面。

May, 2016

DenseBody：从单幅彩色图像直接回归密集式三维人体姿势和形状

本文提出使用卷积神经网络和编码器 - 解码器神经网络从单张彩色图像中直接回归 3D 人体网格，利用高效的 3D 人体形状和姿势表示方法，在 Human3.6M、SURREAL 和 UP-3D 等多个 3D 人体数据集上实现了最新性能。

Mar, 2019

使用骨架一致性从单目视频中重建 3D 人体运动

MotioNet 是一种用于从单眼视频中重建 3D 人体骨骼运动的深度神经网络，通过嵌入运动先验信息的深度神经网络将 2D 关节位置序列分解为对称骨骼和与全局根位置和足接触标签相关联的 3D 关节旋转序列，并在 3D 位置上应用正向运动学，使用敌对损失确保恢复的旋转速度处于自然关节旋转曲面上的关键优势使其能够直接从训练数据中学习到自然的关节旋转。

Jun, 2020