PostoMETRO:姿态标记增强的网格变压器用于稳健的 3D 人体网格恢复
本研究提出了一种名为 MEsh TRansfOrmer(METRO)的新方法,该方法使用变压器编码器来同时建模顶点 - 顶点和顶点 - 关节交互,并从单个图像中输出 3D 关节坐标和网格顶点,其非依赖于任何参数化网格模型,可以轻松地扩展到其他对象,如手的 3D 重建。该方法在处理局部遮挡等具有挑战性情况方面更加鲁棒和有效,在公共数据集 Human3.6M 和 3DPW 上为人类网格重建生成了最新的最先进结果。此外,我们展示了 METRO 到野外 3D 手重建的泛化能力,在 FreiHAND 数据集上性能优于现有最先进方法。
Dec, 2020
从单个图像中推断 3D 人体姿态和形状的问题,重点关注 3D 准确性。目前最好的方法利用大量的 3D 伪地面真值 (p-GT) 和 2D 关键点数据集,以实现稳健性能。我们观察到,随着 2D 准确性的提高,3D 姿势准确性出现矛盾下降。错误的 3D 姿势是由于当前相机模型的偏差和 2D 关键点与 p-GT 的准确匹配引起的。我们定量化了当前相机模型引入的误差,并证明精确拟合 2D 关键点和 p-GT 会导致错误的 3D 姿势。我们提出了新的阈值自适应损失缩放 (TALS) 来惩罚较大的 2D 和 p-GT 损失,但不惩罚较小的损失。此方法可以解释 2D 数据的多个 3D 姿势,为了减少模糊性,我们需要一个先验来限制人体姿势的有效空间,我们利用人体姿势的 Token 编码重新定义了问题,这有效地引入了一个统一的先验。基于 EMDB 和 3DPW 数据集的大量实验证明,我们改进的关键点损失和 Token 编码使我们能够在野外数据上进行训练,并提高了 3D 准确性,我们的模型和代码可供研究使用。
Apr, 2024
本文研究了 Transformer Encoder 在 3D 人类网格重建上的应用。提出了一种名为 FastMETRO 的新型 Transformer Encoder-Decoder 结构,对输入标记的复杂性进行了解耦,并通过注意掩码和网格上采样操作引入人体形态学关系的先验知识来提高其收敛速度和准确性。在 Human3.6M 和 3DPW 数据集上,和基于图像的方法相比明显更有效。
Jul, 2022
通过提出一种新颖的编码器 - 解码器 Transformer 架构,结合多视角和时间信息、几何关系和 2D 姿态检测可信度,我们解决了估计多视图下遮挡和受限重叠视图的 3D 人体姿势的挑战。我们的实验表明该方法在传统三角定位方法的具有挑战性的遮挡场景和视图受限场景中表现出很好的效果。
Dec, 2023
提出了一种基于 Transformer 的 3D 人体姿态估计的剪枝和恢复框架,通过选择具有高语义多样性和消除视频帧冗余的少量代表性 Token,在中间 Transformer 块中有效地提高模型效率。
Nov, 2023
提出一种基于 Transformer 的模型,使用三种独立的 tokens 学习人体的 3D 关节旋转,身体形状和位置信息,进而估算 SMPL 参数,从而解决单目图像或视频中 3D 人体姿态和形状估计的困难问题,并具有较好性能。
Mar, 2023
本文提出了一种基于姿势的轻量级方法 GTRS,它可以从 2D 人类姿态重构人类网格。该方法利用图变换器来提取结构化和隐式的关节相关性以及网格模板来重构人类网格,从而大大提高了模型的效率和泛化性能。在 Human3.6M 和 3DPW 数据集上进行广泛的评估,GTRS 方法在仅使用 10.2% 的参数和 2.5% 的 FLOPs 的同时,比 SOTA 基于姿态的 Pose2Mesh 方法实现了更好的准确性。
Nov, 2021
本文提出了一种基于图表的变形网络,实现了从二维人体姿态到三维人体姿态的估计和到三维人体网格参数的回归。该方法在保证精度的同时,优化了计算效率,具有广泛的实际应用价值。
Jan, 2023
本研究针对单一图像中存在遮挡时的三维人体网格恢复问题,提出了一种融合 2D 和 3D 特征的 JOTR 框架以及一种新颖的 3D 关节对比学习方法,通过增加对 3D 特征空间的显式全局监督,显著改善了遮挡人体的重建效果。
Jul, 2023
本文提出了一种基于 Transformer 的姿势提升方案,能够处理时间上稀疏的二维姿势序列,但仍能产生时间上密集的三维姿势估计。其采用掩码令牌建模来实现 Transformer 块内的时间上采样,可以大大降低总计算复杂度。在 Human3.6M 和 MPI-INF-3DHP 上评估表明,相对于现有的方法,所提出的方法在保持准确性的同时将推理时间降低了 12 倍,这提高了在不同应用中使用可变消费者硬件的实时吞吐量。
Oct, 2022