姿态修正:用自然语言纠正 3D 人体姿态
本文提出了 PoseScript 数据集,该数据集对 AMASS 的几千个 3D 人体姿势与丰富的人体注释描述进行了配对。我们提出了一种详细的字幕生成过程,通过一组简单但通用的规则从给定的 3D 关键点提取低级姿势信息 —— 姿势码,然后使用句法规则将姿势码组合成更高级别的文本描述。自动注释大大增加了可用数据量,并使得在人类字幕微调预训练的深度模型上变得可能。
Oct, 2022
本文提出 a new captioning dataset named FixMyPose,为了避免 ML 偏见,维护了不同背景的不同人群的平衡,对于该数据集我们提出姿势校正字幕任务及其反向目标姿势检索任务,并引入针对该任务的新指标。我们的基线模型能够在现实图像上有良好表现,但在人类评估中仍有提高空间。
Apr, 2021
本文提出了一种名为 JL2P 的神经架构,采用课程学习方法来解决如何将语言概念映射到动作动画的核心建模挑战,并在公开语料库上进行了测试,表明我们的方法能够生成更准确的动画。
Jul, 2019
本研究提出了一种三步走的文本姿势转移方法,解决了现有姿势转移算法的缺陷,并在 DeepFashion 数据集上新增了姿势注释,通过实验得出了显著的定量和定性分数。
Jul, 2022
我们提出了一种零射类实验中的姿势优化方法,可在估计人体的 3D 姿势时强制执行准确的物理接触约束。我们的主要见解是,由于语言通常用于描述物理交互,大型预训练的基于文本的模型可以作为姿势估计的先验知识。因此,我们可以利用这一见解,通过将大型多模态模型(LMM)生成的自然语言描述符转化为可追踪的损失,以约束 3D 姿势优化。尽管方法简单,但我们的方法出人意料地产生了令人信服的人与人之间的接触姿势重建,正确捕捉了社交和物理互动的语义。我们证明了我们的方法与需要昂贵的人工标注联系点和训练专门模型的更复杂的最先进方法相媲美。此外,与以往方法不同的是,我们的方法为解决自体接触和人与人之间的接触提供了统一的框架。
May, 2024
PoseGPT 是一个框架,利用大型语言模型(LLMs)从图像或文本描述中理解和推理出 3D 人体姿势。它通过嵌入 SMPL 姿势作为多模态 LLM 中的独立信号标记来解决传统人体姿势估计方法的局限性,不仅简化了姿势预测,而且赋予了 LLMs 在推理人体姿势方面应用它们的世界知识的能力,从而在姿势估计上进行推理,创造了两项先进任务:姿势的假设生成和姿势估计的推理。PoseGPT 在这些新提出的任务上优于现有的多模态 LLMs 和特定任务的方法,并开辟了人体姿势分析的新方向。
Nov, 2023
通过 Graph Convolutional Network 框架,从用户姿势序列中学习关节运动的关系,能够对个人的自我康复锻炼和体育锻炼中出现的错误进行准确的识别和纠正。
Aug, 2022
本研究提出了一种基于自然语言描述生成高质量三维人脸模型的方法,通过建立 Describe3D 数据集以及使用两阶段框架来解决描述语言空间与形状 / 外观空间映射关系的问题,并且实验结果表明,该方法可以以比以往更高的精度和质量生成符合输入描述的三维人脸。
May, 2023
本文提出了一种在 “野外” 环境中进行三维人体姿态估计的解决方案,通过生成大量的具有三维姿势标注的逼真合成图像,并使用这些图像对全身三维姿势进行端对端的卷积神经网络训练,成功地在受控环境(Human3.6M)中优于大多数已发表的作品,并在真实图像(LSP)中展现了有前途的结果。
Feb, 2018