KIT 运动语言数据集
我们提供了一项关于基于文本的三维人体动作检索的研究结果,重点关注跨数据集的泛化问题。通过采用统一的 SMPL 人体格式,我们能够对一个数据集进行训练,对另一个进行测试,或者对多个数据集进行训练。研究结果表明,标准的文本 - 动作基准数据集(如 HumanML3D、KIT Motion-Language 和 BABEL)存在数据集偏差。我们展示了文本增强在一定程度上可以缩小领域差距,但仍存在差距。此外,我们首次提供了使用 BABEL 进行零样本动作识别的结果,而在训练过程中没有使用分类动作标签,开辟了未来研究的新方向。
May, 2024
介绍了一个新的包含人类行为的视频和语言数据集,该数据集专注于描述动态人类动作的故事意图和局限性表达式,该数据集预计对评估包括否定和量化在内的复杂语句与视频之间的多模态推理系统非常有用。
Jun, 2021
本文探讨如何实现基于文本描述的运动检索任务,利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型,对大量 3D 骨骼序列进行内容检索,实现了相应的定量度量评估。
May, 2023
该论文提出了 MotionScript,一种用于人体动作到文本转换的算法和自然语言表达。MotionScript 旨在比以前的自然语言方法更详细和准确地描述动作。通过将 MotionScript 表示应用于文本到动作的神经任务中,可以更准确地重构身体动作,并且可以使用大型语言模型生成看不到的复杂动作。
Dec, 2023
该研究提出了一种使用深度循环神经网络和序列到序列学习学习人体全身运动和自然语言之间双向映射的生成模型,该模型不需要分割或手动特征工程,并学习分布式表示,其结构可以生成逼真的动作或描述.
May, 2017
该研究介绍了 Motion-X 数据集及其构建方法,包含全身运动数据、姿态描述、语义标注等,采用高精度、低成本、可扩展的自动化流程进行数据标注,旨在提高生成自然、多样、表达丰富的运动以及进行 3D 人体网格恢复的能力。
Jul, 2023
本文介绍了一组新的人体运动和视频数据集 MoVi,其中包括 60 名女性和 30 名男性表演 20 种预定义的日常动作和运动,以及一种自选运动。该数据集包含 9 小时的运动捕捉数据、17 小时的 4 个不同视角的视频数据和 6.6 小时的 IMU 数据,同时还描述了数据集的收集和后处理过程,并探讨了该数据集可促进的研究方向。
Mar, 2020
通过利用多语言多模态学习模型(MLLMs)的无动作数据,我们首次探索了基于自然语言指令的开放式人类动作合成,实现了通用的人类动作合成,为未来的研究铺平了道路。
Jun, 2024
本文提出了一种名为 JL2P 的神经架构,采用课程学习方法来解决如何将语言概念映射到动作动画的核心建模挑战,并在公开语料库上进行了测试,表明我们的方法能够生成更准确的动画。
Jul, 2019
本文提出了一种统一的,多功能的运动语言模型 MotionGPT,旨在通过将语言数据与大规模运动模型相结合,开发出能够增强涉及运动的任务的预训练模型,实现对文本驱动运动生成、运动字幕制作、运动预测和中间运动状态生成等多项任务的最先进表现。
Jun, 2023