FixMyPose：姿态矫正字幕与检索

AAAIApr, 2021

FixMyPose: Pose Correctional Captioning and Retrieval

Hyounghun Kim, Abhay Zala, Graham Burri, Mohit Bansal

TL;DR本文提出 a new captioning dataset named FixMyPose，为了避免 ML 偏见，维护了不同背景的不同人群的平衡，对于该数据集我们提出姿势校正字幕任务及其反向目标姿势检索任务，并引入针对该任务的新指标。我们的基线模型能够在现实图像上有良好表现，但在人类评估中仍有提高空间。

Abstract

Interest in physical therapy and individual exercises such as yoga/dance has increased alongside the well-being trend. However, such exercises are hard to follow without expert guidance (which is impossible to scale for personalized feedback to every trainee remotely). Thus,

physical therapy automated pose correction captioning dataset pose-correctional-captioning task human-model performance gap

发现论文，激发创造

姿态修正：用自然语言纠正 3D 人体姿态

通过自然语言反馈修正三维人体姿势以及生成纠正的三维人体姿势的文本编辑方法。

Sep, 2023

基于三维姿势反馈的身体锻炼

通过 Graph Convolutional Network 框架，从用户姿势序列中学习关节运动的关系，能够对个人的自我康复锻炼和体育锻炼中出现的错误进行准确的识别和纠正。

Aug, 2022

跟随你的姿势：使用无姿态视频进行姿势引导的文本到视频生成

本研究提出一种新的双阶段训练方法，可利用易获得的数据集和预训练的 text-to-image（T2I）模型，生成可编辑和姿态可控的字符视频。这种方法成功地生成了连续的姿态可控字符视频，同时保持了预训练 T2I 模型的编辑和概念构成能力。

Apr, 2023

基于领域知识的自监督表示学习用于 Workout Form 评估

通过自监督的学习和对锻炼形式的理解，我们提出了一种在容易出现镜头角度、遮挡和光照变化的体育馆场景下，能够有效对运动员姿势进行检测的方法。我们还针对此目的创建了一个包含三种训练动作的新锻炼数据集，并且其自监督特征的表现超过了现有的 2D 和 3D 姿态估计器。

Feb, 2022

从自然语言生成三维人体姿态的 PoseScript

本文提出了 PoseScript 数据集，该数据集对 AMASS 的几千个 3D 人体姿势与丰富的人体注释描述进行了配对。我们提出了一种详细的字幕生成过程，通过一组简单但通用的规则从给定的 3D 关键点提取低级姿势信息 —— 姿势码，然后使用句法规则将姿势码组合成更高级别的文本描述。自动注释大大增加了可用数据量，并使得在人类字幕微调预训练的深度模型上变得可能。

Oct, 2022

TIPS: 文本驱动的姿势合成

本研究提出了一种三步走的文本姿势转移方法，解决了现有姿势转移算法的缺陷，并在 DeepFashion 数据集上新增了姿势注释，通过实验得出了显著的定量和定性分数。

Jul, 2022

肌肉视觉：基于实时关键点的体育动作姿势分类

本研究提出了一种新的机器学习流程和网络接口，可对实时视频进行人姿态识别，检测特定健身运动并进行分类，主要贡献包括一种基于关键点和时间序列的轻量级分类方法和一个基于 Web 的软件应用程序，实时获取和可视化结果。

Mar, 2022

Language2Pose: 自然语言基础姿态预测

本文提出了一种名为 JL2P 的神经架构，采用课程学习方法来解决如何将语言概念映射到动作动画的核心建模挑战，并在公开语料库上进行了测试，表明我们的方法能够生成更准确的动画。

Jul, 2019

文本到运动检索的联合数据集学习和交叉一致性正则化

本文研究了运动姿势估计方法、文本与运动之间的检索任务、多数据集联合训练、交叉一致对比损失以及 MoT++ 等关键概念，并通过实验证明了提出的方法在 KIT Motion-Language 和 HumanML3D 数据集上的有效性。

Jul, 2024

来自语言模型的姿态先验

我们提出了一种零射类实验中的姿势优化方法，可在估计人体的 3D 姿势时强制执行准确的物理接触约束。我们的主要见解是，由于语言通常用于描述物理交互，大型预训练的基于文本的模型可以作为姿势估计的先验知识。因此，我们可以利用这一见解，通过将大型多模态模型（LMM）生成的自然语言描述符转化为可追踪的损失，以约束 3D 姿势优化。尽管方法简单，但我们的方法出人意料地产生了令人信服的人与人之间的接触姿势重建，正确捕捉了社交和物理互动的语义。我们证明了我们的方法与需要昂贵的人工标注联系点和训练专门模型的更复杂的最先进方法相媲美。此外，与以往方法不同的是，我们的方法为解决自体接触和人与人之间的接触提供了统一的框架。

May, 2024