Skeletor: 基于骨架的Transformer模型用于鲁棒的身体姿态估计
该研究提出了一种名为 Skeleton Transformer Networks 的网络框架,可以通过单张彩色图像预测出人体骨架的 3D 关节点位置和 3D 角度姿态,并从而生成蒙皮网格动画。该框架采用两步回归方法进行骨骼旋转预测,其中第一步通过考虑骨架结构回归骨骼旋转以获得初始解,第二步则基于被称为交叉热图的三维姿态表示采用热图回归器进行精细化调整。实验表明,使用该框架训练的 3D 人体姿势数据集可以在野外环境下通过单张图像准确预测出人体的 3D 姿态。
Dec, 2018
提出了一种名为SkeleMotion的骨骼图像表示法,能够更好地捕捉行为中所涉及的长程关节交互和过滤杂乱运动值,并在NTU RGB+D 120数据集上优于现有技术,在3D人体动作识别方面取得了成功。
Jul, 2019
MotioNet是一种用于从单眼视频中重建 3D 人体骨骼运动的深度神经网络,通过嵌入运动先验信息的深度神经网络将 2D 关节位置序列分解为对称骨骼和与全局根位置和足接触标签相关联的 3D 关节旋转序列,并在 3D 位置上应用正向运动学,使用敌对损失确保恢复的旋转速度处于自然关节旋转曲面上的关键优势使其能够直接从训练数据中学习到自然的关节旋转。
Jun, 2020
本论文提出了一种新的transformer模型,旨在实现对骨架运动序列的无监督学习。该模型结合了全局和局部注意机制,通过新的预训练策略,成功地学习了局部和全局的内容,并在测试中显示出了优异的性能。
Jul, 2022
提出一种基于Transformer的模型,使用三种独立的tokens学习人体的3D关节旋转,身体形状和位置信息,进而估算SMPL参数,从而解决单目图像或视频中3D人体姿态和形状估计的困难问题,并具有较好性能。
Mar, 2023
本研究提出了一种名为PoseFormerV2的新型人体姿态估计方法,借助于在频域上紧凑的骨骼序列表示,以有效地扩大接受域并增强对噪声干扰的鲁棒性,进行时域和频域特征有效融合,相较于原始的PoseFormer和其他基于transformer的变体有更好的速度-准确性平衡。
Mar, 2023
本文提出一种基于transformer的EvoPose模型,通过结构先验表示(SPR)模块和递归细化(RR)模块有效引入人体先验知识,从而提高了3D人体姿态估计的精度,实验结果在Human3.6M和MPI-INF-3DHP上达到了新的最佳表现。
Jun, 2023
SkeleTR是一个新的基于骨架的动作识别框架,通过图卷积来模拟骨架序列的个人内部动态,并使用堆叠的Transformer编码器来捕捉人与人之间的重要交互,从而在一般情境下进行动作识别。
Sep, 2023
为了多视角人体姿势和形状估计,我们介绍了SkelFormer,一种新颖的无标记动作捕捉方法。我们的方法首先使用现成的在野外大规模训练的2D关键点估计器来获取3D关节位置。接下来,我们设计了一个基于回归的逆运动学骨骼变换器,将关节位置从嘈杂的观测映射到姿势和形状表示。该模块结合了关于姿势空间的先验知识,并在运行时推断完整的姿势状态。通过将3D关键点检测和逆运动学问题分离,并利用我们骨骼变换器学到的表达能力,增强了我们的方法对未见过的嘈杂数据的泛化能力。我们在三个公共数据集上进行实验评估,在分布内和分布外的设置下,对之前的工作表现出良好的性能。此外,消融实验展示了我们架构的每个模块的影响。最后,我们研究了我们的方法在处理噪声和重叠方面的性能,并发现与其他解决方案相比具有相当的鲁棒性。
Apr, 2024
本研究解决了低分辨率图像特征对人类姿态和形状同时估计的局限性,进而影响3D人类网格恢复的准确性。通过引入基于骨骼的解耦表示,该论文提出了一种新颖的半解析回归器ARTS,有效利用骨骼信息来提升网格参数估计的精度。实验结果显示,该方法在多个基准测试中超越了现有的最先进视频方法,具有显著的准确度和时间一致性。
Oct, 2024