PoseEmbroider:朝向一种三维视觉语义感知的人体姿态表示
本文提出使用多视角图像而无需注释,来学习一个具有几何感知能力的身体表示,通过使用该身体表示,我们的方法在仅使用少量标记数据的情况下,显著优于完全监督的方法,并且在使用仅 1% 标记数据时,也优于其他半监督方法。
Apr, 2018
本文提出了一种采用运动学结构保持无监督学习的 3D 人体姿势估计框架,可以避免使用任何弱监督模型,并通过能量损失和运动学先验知识来训练模型,提高对新环境下的准确性和泛化能力。
Jun, 2020
通过使用新颖的神经表示,我们提出了一种部署友好的、快速的自下而上的多人三维人体姿态估计框架;进一步,我们基于跨模态的对齐问题,提出了一种实用的部署范式,使得我们的模型不仅能够处理现实世界的图像,而且在速度与性能之间实现了更好的平衡。
Aug, 2020
该研究提出了PoseAug,一个基于数据自动增强的框架,能通过增加训练姿态的多样性来提高2D到3D姿态估计器的泛化性能,该框架引入了姿势增强器来调整姿态的各种几何因素,并介绍了适用于评估局部关节角度可信度的Kinematic Chain Space。该研究的实验结果表明,在训练数据集有限的情况下,算法能显著地提高估计器的性能。
May, 2021
本文提出了PoseScript数据集,该数据集对AMASS的几千个3D人体姿势与丰富的人体注释描述进行了配对。我们提出了一种详细的字幕生成过程,通过一组简单但通用的规则从给定的3D关键点提取低级姿势信息——姿势码,然后使用句法规则将姿势码组合成更高级别的文本描述。自动注释大大增加了可用数据量,并使得在人类字幕微调预训练的深度模型上变得可能。
Oct, 2022
提出了一种名为PoseVocab的编码技术,该技术基于训练动态的多视角RGB视频,构建关键姿势和潜在嵌入,以有效地编码动态人体外观细节,从而使得在新的姿势下实现逼真且广泛的动画成为可能。
Apr, 2023
TEMPO是一种高效的多视角姿势估计模型,通过学习稳健的时空表示,提高了姿势准确性,同时还能跟踪和预测人体姿势。该模型通过循环计算个人的二维姿势特征,将空间和时间信息融合成一种表示,并利用时空上下文预测更准确的人体姿势,同时保持高效性。该模型能够跨数据集泛化而无需场景特定微调,达到了相比TesseTrack在具有挑战性的CMU Panoptic Studio数据集上MPJPE提升10%,帧率提升33倍的效果。
Sep, 2023
使用现有的2D姿态检测器产生的中间可视化表示,从而获得姿态的空间上下文信息。通过设计一个名为Context-Aware PoseFormer的简单基线方法来展示其有效性,该方法在速度和精度方面明显优于其他使用数百个视频帧的最先进方法。
Nov, 2023
PoseGPT是一个框架,利用大型语言模型(LLMs)从图像或文本描述中理解和推理出3D人体姿势。它通过嵌入SMPL姿势作为多模态LLM中的独立信号标记来解决传统人体姿势估计方法的局限性,不仅简化了姿势预测,而且赋予了LLMs在推理人体姿势方面应用它们的世界知识的能力,从而在姿势估计上进行推理,创造了两项先进任务:姿势的假设生成和姿势估计的推理。PoseGPT在这些新提出的任务上优于现有的多模态LLMs和特定任务的方法,并开辟了人体姿势分析的新方向。
Nov, 2023
我们提出了一种零射类实验中的姿势优化方法,可在估计人体的3D姿势时强制执行准确的物理接触约束。我们的主要见解是,由于语言通常用于描述物理交互,大型预训练的基于文本的模型可以作为姿势估计的先验知识。因此,我们可以利用这一见解,通过将大型多模态模型(LMM)生成的自然语言描述符转化为可追踪的损失,以约束3D姿势优化。尽管方法简单,但我们的方法出人意料地产生了令人信服的人与人之间的接触姿势重建,正确捕捉了社交和物理互动的语义。我们证明了我们的方法与需要昂贵的人工标注联系点和训练专门模型的更复杂的最先进方法相媲美。此外,与以往方法不同的是,我们的方法为解决自体接触和人与人之间的接触提供了统一的框架。
May, 2024