使用独立标记捕捉每个关节的动作:三维人体姿态和形状估计
借助多尺度空间特征和多步幅时间卷积网络,在设计A的基础上,B通过在训练过程中模拟各种遮挡情况来提高露出度鲁棒性,并利用2D视频数据注入半监督学习能力。实验证实了该方法的有效性,并且消融研究表明我们网络的单个子模块的优势。
Apr, 2020
本研究提出一种基于transformer的算法,能够在视频中实现3D人体姿态估计,通过对空间和时间进行变换,对每一帧中人体关节关系进行建模,并在中心帧上输出准确的3D人体姿态,该算法在Human3.6M和MPI-INF-3DHP数据集上实现了最先进的成果。
Mar, 2021
本研究提出了一种新的任务,在人体形态和姿势估计中使用多幅图像组成的分布预测模型,使我们能够量化姿势预测的不确定性,并提高了 3D 人体形态估计度量标准。
Mar, 2021
该研究提出了一种运动姿势和形状网络(MPS-Net)来有效地捕捉视频中的运动并从中估计准确的和时间连续的三维人体姿态和形状。MPS-Net利用运动连续性注意力(MoCA)模块和分层注意特征融合(HAFI)模块以提高运动姿势的精度并使用更少的网络参数。
Mar, 2022
本文提出了一种基于 Transformer 的姿势提升方案,能够处理时间上稀疏的二维姿势序列,但仍能产生时间上密集的三维姿势估计。其采用掩码令牌建模来实现 Transformer 块内的时间上采样,可以大大降低总计算复杂度。在 Human3.6M 和 MPI-INF-3DHP 上评估表明,相对于现有的方法,所提出的方法在保持准确性的同时将推理时间降低了12倍,这提高了在不同应用中使用可变消费者硬件的实时吞吐量。
Oct, 2022
本研究提出了一种名为PoseFormerV2的新型人体姿态估计方法,借助于在频域上紧凑的骨骼序列表示,以有效地扩大接受域并增强对噪声干扰的鲁棒性,进行时域和频域特征有效融合,相较于原始的PoseFormer和其他基于transformer的变体有更好的速度-准确性平衡。
Mar, 2023
提出了一种Pose and Mesh Co-Evolution网络(PMCE),通过将任务分解为视频中基于3D人体姿势估计和来自估计的3D姿势和时间图像特征的网格顶点回归,解决了从视频中准确、平滑地恢复3D人体运动的问题。实验证明,该方法在三个基准数据集(3DPW、Human3.6M和MPI-INF-3DHP)上在逐帧准确度和时间一致性方面优于先前的最先进方法。
Aug, 2023
提出了一种从单眼视频中恢复时间一致的3D人体姿势、形状和动作的方法,通过使用具有身体感知特征表示和独立的逐帧姿势和相机初始化,结合自相似性和自注意力等技术进行时空特征聚合,该方法提供了增强的时空上下文,可在各种复杂场景下得到更准确的姿势估计和形状重建。
Nov, 2023
从单个图像中推断3D人体姿态和形状的问题,重点关注3D准确性。目前最好的方法利用大量的3D伪地面真值(p-GT)和2D关键点数据集,以实现稳健性能。我们观察到,随着2D准确性的提高,3D姿势准确性出现矛盾下降。错误的3D姿势是由于当前相机模型的偏差和2D关键点与p-GT的准确匹配引起的。我们定量化了当前相机模型引入的误差,并证明精确拟合2D关键点和p-GT会导致错误的3D姿势。我们提出了新的阈值自适应损失缩放(TALS)来惩罚较大的2D和p-GT损失,但不惩罚较小的损失。此方法可以解释2D数据的多个3D姿势,为了减少模糊性,我们需要一个先验来限制人体姿势的有效空间,我们利用人体姿势的Token编码重新定义了问题,这有效地引入了一个统一的先验。基于EMDB和3DPW数据集的大量实验证明,我们改进的关键点损失和Token编码使我们能够在野外数据上进行训练,并提高了3D准确性,我们的模型和代码可供研究使用。
Apr, 2024