FixMyPose:姿态矫正字幕与检索
通过 Graph Convolutional Network 框架,从用户姿势序列中学习关节运动的关系,能够对个人的自我康复锻炼和体育锻炼中出现的错误进行准确的识别和纠正。
Aug, 2022
本研究提出一种新的双阶段训练方法,可利用易获得的数据集和预训练的 text-to-image(T2I)模型,生成可编辑和姿态可控的字符视频。这种方法成功地生成了连续的姿态可控字符视频,同时保持了预训练 T2I 模型的编辑和概念构成能力。
Apr, 2023
通过自监督的学习和对锻炼形式的理解,我们提出了一种在容易出现镜头角度、遮挡和光照变化的体育馆场景下,能够有效对运动员姿势进行检测的方法。我们还针对此目的创建了一个包含三种训练动作的新锻炼数据集,并且其自监督特征的表现超过了现有的 2D 和 3D 姿态估计器。
Feb, 2022
本文提出了 PoseScript 数据集,该数据集对 AMASS 的几千个 3D 人体姿势与丰富的人体注释描述进行了配对。我们提出了一种详细的字幕生成过程,通过一组简单但通用的规则从给定的 3D 关键点提取低级姿势信息 —— 姿势码,然后使用句法规则将姿势码组合成更高级别的文本描述。自动注释大大增加了可用数据量,并使得在人类字幕微调预训练的深度模型上变得可能。
Oct, 2022
本研究提出了一种三步走的文本姿势转移方法,解决了现有姿势转移算法的缺陷,并在 DeepFashion 数据集上新增了姿势注释,通过实验得出了显著的定量和定性分数。
Jul, 2022
本研究提出了一种新的机器学习流程和网络接口,可对实时视频进行人姿态识别,检测特定健身运动并进行分类,主要贡献包括一种基于关键点和时间序列的轻量级分类方法和一个基于 Web 的软件应用程序,实时获取和可视化结果。
Mar, 2022
本文提出了一种名为 JL2P 的神经架构,采用课程学习方法来解决如何将语言概念映射到动作动画的核心建模挑战,并在公开语料库上进行了测试,表明我们的方法能够生成更准确的动画。
Jul, 2019
本文研究了运动姿势估计方法、文本与运动之间的检索任务、多数据集联合训练、交叉一致对比损失以及 MoT++ 等关键概念,并通过实验证明了提出的方法在 KIT Motion-Language 和 HumanML3D 数据集上的有效性。
Jul, 2024
我们提出了一种零射类实验中的姿势优化方法,可在估计人体的 3D 姿势时强制执行准确的物理接触约束。我们的主要见解是,由于语言通常用于描述物理交互,大型预训练的基于文本的模型可以作为姿势估计的先验知识。因此,我们可以利用这一见解,通过将大型多模态模型(LMM)生成的自然语言描述符转化为可追踪的损失,以约束 3D 姿势优化。尽管方法简单,但我们的方法出人意料地产生了令人信服的人与人之间的接触姿势重建,正确捕捉了社交和物理互动的语义。我们证明了我们的方法与需要昂贵的人工标注联系点和训练专门模型的更复杂的最先进方法相媲美。此外,与以往方法不同的是,我们的方法为解决自体接触和人与人之间的接触提供了统一的框架。
May, 2024