MotionGPT:以人类动作为外语
本文提出了一种使用多模态控制信号的运动通用生成器(MotionGPT),它将多模态信号作为大型语言模型(LLMs)中的特殊输入令牌来生成连续的人类动作,是首次使用多模态控制信号生成人类动作的方法。
Jun, 2023
该研究提出了 M$^3$GPT,一种先进的多模态、多任务框架,用于运动理解和生成。该模型通过统一表征空间、在原始运动空间建模和建立不同运动任务之间的连接,实现了对多种信号的综合理解和生成,为极具挑战性任务提供了强大的零样本泛化能力。
May, 2024
本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架,并表明了通过常用的训练配方(EMA 和 Code Reset),我们可以获得高质量的离散表示。此外,我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差,并在 HumanML3D 数据集上表现出比竞争方法更好的性能。
Jan, 2023
提出了一种基于 PoseGPT 的自回归变换器的方法,该方法可以生成人体运动序列,利用离散的潜在空间使 GPT-like 模型集中于长程信号预测,获得了在几个数据集上实现最先进的结果。
Oct, 2022
本文旨在从文本描述中生成多样且逼真的动物运动序列,无需大规模动物文本 - 运动数据集。通过设计一个模仿 GPT 的模型架构,利用从人类数据中学到的先验知识应用于动物领域,我们可以联合训练动物和人类运动的运动自编码器,并同时优化人类运动编码、动物运动编码和文本 CLIP 嵌入之间的相似性分数。我们创造性地解决了该问题,并能够生成具有高多样性和逼真度的动物运动,数量和质量上均优于在动物数据上训练人类运动生成基线的结果。此外,我们还推出了 AnimalML3D,第一个包含 1240 个动画序列和 36 种不同动物身份的文本 - 动物运动数据集。我们希望这个数据集能够解决文本驱动动物运动生成中的数据稀缺问题,并为研究社区提供一个新的研究平台。
Nov, 2023
通过使用预训练的 LLM 模型进行微调,本研究提出了 MotionLLM,一个简单且通用的框架,可实现单人和多人运动生成以及动作字幕生成。
May, 2024
建立一个大规模的细粒度文本 - 运动数据集 FineHumanML3D,并设计一种新的文本生成运动模型 FineMotionDiffuse,以更好地生成空间 / 时间上的综合动作。
Mar, 2024
通过利用多语言多模态学习模型(MLLMs)的无动作数据,我们首次探索了基于自然语言指令的开放式人类动作合成,实现了通用的人类动作合成,为未来的研究铺平了道路。
Jun, 2024
通过引入生成的 GPT-4 运动描述应用于三个行动数据集并在运动描述检索任务上评估几种视频 - 文本模型,本研究探讨了视频与图片的信息性差异,着重关注视频 - 文本模型对于视频中运动的理解以及需要在现有数据集中加入细致动作信息的问题,并证明了利用动作描述提高视频 - 文本模型对于细致动作的理解的方法的有效性。
Jun, 2024
本文探讨如何实现基于文本描述的运动检索任务,利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型,对大量 3D 骨骼序列进行内容检索,实现了相应的定量度量评估。
May, 2023