SMPLer：针对单目 3D 人体形状和姿势估计的 Transformer 模型改进

Apr, 2024

SMPLer：针对单目 3D 人体形状和姿势估计的 Transformer 模型改进

SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation

Xiangyu Xu, Lijuan Liu, Shuicheng Yan

TL;DR通过引入两个关键元素，即分离的注意力操作和基于 SMPL 的目标表示，本文提出了一种面向 SMPL 的 Transformer 框架（SMPLer），通过有效利用 Transformer 中的高分辨率特征来解决了现有 monocular 3D human shape 和 pose estimation 模型在计算和内存复杂度方面的问题，并通过多个新模块进一步提高重建性能。在实验证明了 SMPLer 在量化和定性方面都比现有的 3D human shape 和 pose estimation 方法效果更好，其中在 Human3.6M 数据集上实现了 45.2 毫米的平均关节定位误差，相较于 Mesh Graphormer 提升了 10% 以上且参数数量不到三分之一。

Abstract

Existing transformers for monocular 3d human shape and pose estimation typically have a quadratic computation and memory complexity with r

transformers monocular 3d human shape pose estimation smpler high-resolution features

发现论文，激发创造

使用独立标记捕捉每个关节的动作：三维人体姿态和形状估计

提出一种基于 Transformer 的模型，使用三种独立的 tokens 学习人体的 3D 关节旋转，身体形状和位置信息，进而估算 SMPL 参数，从而解决单目图像或视频中 3D 人体姿态和形状估计的困难问题，并具有较好性能。

Mar, 2023

SMPL 约简：从单张图片自动估计三维人体姿态和形状

本研究提出了一种基于 DeepCut 和 SMPL 模型的 3D 姿态估计方法，能够从单张无约束的图像中自动预测人体的姿态和形状，实现了对人体结构和运动的精确推断。

Jul, 2016

SMPLer-X: 扩展性人体姿势和形状估计

通过大数据和大模型，本研究扩展了表达性人体姿势和形状估计 (EHPS) 模型，命名为 SMPLer-X，采用 ViT-Huge 作为骨干，并使用来自不同数据源的 450 万个实例进行训练。SMPLer-X 在多个测试基准上展现出强大性能，并且对于未知环境具有极高的可迁移性。

Sep, 2023

通过 - Uplifting-Transformers 实现高效三维人体姿势估计的提升和上采样

本文提出了一种基于 Transformer 的姿势提升方案，能够处理时间上稀疏的二维姿势序列，但仍能产生时间上密集的三维姿势估计。其采用掩码令牌建模来实现 Transformer 块内的时间上采样，可以大大降低总计算复杂度。在 Human3.6M 和 MPI-INF-3DHP 上评估表明，相对于现有的方法，所提出的方法在保持准确性的同时将推理时间降低了 12 倍，这提高了在不同应用中使用可变消费者硬件的实时吞吐量。

Oct, 2022

用于从 2D 人体姿态估计中获得人体姿态和形状的模块化多阶段轻量级图转换网络

本文提出了一种基于图表的变形网络，实现了从二维人体姿态到三维人体姿态的估计和到三维人体网格参数的回归。该方法在保证精度的同时，优化了计算效率，具有广泛的实际应用价值。

Jan, 2023

SMPLpix：基于 3D 人体模型的神经化身

本研究提出了一种新的深度学习网络，用于将 3D 模型转换为逼真的照片，旨在弥合现有深度生成模型不能灵活控制的瓶颈问题，同时也改善了传统三维图形处理渲染机制的不足之处。

Aug, 2020

多视角图像中的多人姿态估计与形状感知

本文提出了一种基于多视图图像的多人姿态估计方法，在统计参数体模型的引导下，这种方法能够更好地纠正不合理的 3D 姿态估计和填充缺失的关节点检测，将 2D 和 3D 观测联系起来，从而更准确地估计 3D 姿态并且具有较好的泛化性能，实验表明该方法的效果优于现有的方法。

Oct, 2021

利用多视角图像进行形状感知人体姿态和形状重建

使用多视角图像建议一种可伸缩的神经网络框架来重建 SMPL 模型子空间中的人体 3D 网格，并在现实图像上表现优异，特别是在形状估计方面。

Aug, 2019

多透视空时关系变换的精确 3D 人体姿势估计

我们提出了一个多阶段的 3D 序列到序列人体姿势检测框架，利用变压器的自注意力机制从多视角视频数据中捕捉空间 - 时间相关性，实验结果表明我们的方法在 Human3.6M 数据集上表现出色。

Jan, 2024

LASOR: 通过合成有遮挡感知数据和神经网格渲染学习精确的三维人体姿态和形状

针对人体姿态和形状估计中的遮挡问题，特别是人物之间的遮挡问题，本文提出了一种新的框架，通过合成 occlusion-aware 阴影和 2D 关键点方便估计 SMPL 姿态和形状参数，使用三维神经网格渲染器实现了实时新学习，已在现有数据集中表现出优越性能。

Aug, 2021