基于文本描述的有接触感知的人体动作生成
通过将任务分解为两个可管理的子问题:目标对象的语言准确性和以目标对象为中心的运动生成,本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作,实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。
May, 2024
该研究论文介绍了一项基于文本指导的生成 3D 手物交互序列的工作,并提出了两个子任务:手物接触生成和手物运动生成。通过使用变分自编码器和 Transformer 扩散模型,在文本提示下生成物理上合理的手物交互动作,并通过一种手优化模块改善了接触的时序稳定性和穿透问题。对比基准方法,该方法生成的交互更加真实和多样,并且适用于未知物体。
Mar, 2024
本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息,通过基于 Transformer 的扩散框架,实现了多个数据集中任意数量主题或帧的生成。实验证明,我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。
May, 2024
本文介绍了使用文本描述生成多样的 3D 人类动作的方法,并提出了 TEMOS 框架,它是一种基于变分自编码器的文本条件生成模型,可以产生多种不同的人体动作,实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。
Apr, 2022
我们提出了一种新颖的 GPT-connect 框架,通过利用 ChatGPT 在无需训练的情况下,连接现有的人体运动生成器与三维场景,实现了直接生成结合场景的运动序列,并通过广泛的实验证明了我们提出的框架的有效性和普适性。
Mar, 2024
本文探讨如何实现基于文本描述的运动检索任务,利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型,对大量 3D 骨骼序列进行内容检索,实现了相应的定量度量评估。
May, 2023
建立一个大规模的细粒度文本 - 运动数据集 FineHumanML3D,并设计一种新的文本生成运动模型 FineMotionDiffuse,以更好地生成空间 / 时间上的综合动作。
Mar, 2024
该研究提出了一个全新的基于文本驱动的整体运动生成任务,以给定的文本描述为输入,并旨在同时生成高质量、多样且连贯的面部表情、手势和身体动作。该研究通过一个名为 HumanTOMATO 的文本对齐全身运动生成框架,解决了以往关于文本驱动动作生成任务的两个限制,即忽视了精细的手部和面部控制在栩栩如生的整体运动生成中的重要作用,并且缺乏文本和运动之间的良好对齐。通过全面实验证明,该模型在生成的动作质量和与文本的对齐方面具有显著优势。
Oct, 2023
基于引导扩散框架,我们提出了一个新方法:根据给定的互动标签生成参与互动的 3D 人体,通过自适应地估计潜在的接触区域和使用它们作为指导,我们演示了在 CHI3D 数据集上的 ContactGen 方法生成与比较方法相比更加真实多样的姿势。
Jan, 2024
提出了一种名为 KeyMotion 的方法,通过生成关键帧并进行填充,实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器(VAE)将关键帧投影到潜空间,来减少维度和加速扩散过程。同时,引入了一种新的并行跳过注意力机制的 Transformer,用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充,确保运动序列的保真度和遵循人体运动的物理约束。实验证明,该方法在 HumanML3D 数据集上达到了最先进的结果,所有 R-Precision 度量和多模态距离指标均优于其他方法。同时,在 KIT 数据集上也获得了有竞争力的性能,在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。
May, 2024