基于文本描述的有接触感知的人体动作生成

Mar, 2024

基于文本描述的有接触感知的人体动作生成

Contact-aware Human Motion Generation from Textual Descriptions

Sihan Ma, Qiong Cao, Jing Zhang, Dacheng Tao

TL;DR从文本中生成三维交互式人体动作的研究，通过引入人体与物体接触的联系，提出了一种新的方法 CATMO，整合了运动和接触序列，通过学习文本嵌入来生成稳定的动作序列。

Abstract

This paper addresses the problem of generating 3d interactive human motion from text. Given a textual description depicting the actions of different body parts in contact with objects, we synthesize sequences of 3D body poses that are visually natural and physically plausible. Yet, thi

3d interactive human motion text-driven human-object contact labels motion-text pairs text-to-motion methods

发现论文，激发创造

从文本描述中生成三维场景的人类动作

通过将任务分解为两个可管理的子问题：目标对象的语言准确性和以目标对象为中心的运动生成，本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作，实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。

May, 2024

Text2HOI: 文本引导的手 - 物互动三维运动生成

该研究论文介绍了一项基于文本指导的生成 3D 手物交互序列的工作，并提出了两个子任务：手物接触生成和手物运动生成。通过使用变分自编码器和 Transformer 扩散模型，在文本提示下生成物理上合理的手物交互动作，并通过一种手优化模块改善了接触的时序稳定性和穿透问题。对比基准方法，该方法生成的交互更加真实和多样，并且适用于未知物体。

Mar, 2024

面向开放领域的多人动作驱动文本合成

本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息，通过基于 Transformer 的扩散框架，实现了多个数据集中任意数量主题或帧的生成。实验证明，我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。

May, 2024

TEMOS: 从文本描述生成多样化的人类动作

本文介绍了使用文本描述生成多样的 3D 人类动作的方法，并提出了 TEMOS 框架，它是一种基于变分自编码器的文本条件生成模型，可以产生多种不同的人体动作，实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。

Apr, 2022

GPT-Connect: 文本驱动的人体运动生成器与 3D 场景的训练无关交互

我们提出了一种新颖的 GPT-connect 框架，通过利用 ChatGPT 在无需训练的情况下，连接现有的人体运动生成器与三维场景，实现了直接生成结合场景的运动序列，并通过广泛的实验证明了我们提出的框架的有效性和普适性。

Mar, 2024

文本到动作检索：走向人体运动数据和自然语言的联合理解

本文探讨如何实现基于文本描述的运动检索任务，利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型，对大量 3D 骨骼序列进行内容检索，实现了相应的定量度量评估。

May, 2023

从细粒度文本描述生成运动

建立一个大规模的细粒度文本 - 运动数据集 FineHumanML3D，并设计一种新的文本生成运动模型 FineMotionDiffuse，以更好地生成空间 / 时间上的综合动作。

Mar, 2024

HumanTOMATO: 文本对齐的全身动作生成

该研究提出了一个全新的基于文本驱动的整体运动生成任务，以给定的文本描述为输入，并旨在同时生成高质量、多样且连贯的面部表情、手势和身体动作。该研究通过一个名为 HumanTOMATO 的文本对齐全身运动生成框架，解决了以往关于文本驱动动作生成任务的两个限制，即忽视了精细的手部和面部控制在栩栩如生的整体运动生成中的重要作用，并且缺乏文本和运动之间的良好对齐。通过全面实验证明，该模型在生成的动作质量和与文本的对齐方面具有显著优势。

Oct, 2023

ContactGen: 为合作伙伴提供基于接触指导的交互式三维人体生成

基于引导扩散框架，我们提出了一个新方法：根据给定的互动标签生成参与互动的 3D 人体，通过自适应地估计潜在的接触区域和使用它们作为指导，我们演示了在 CHI3D 数据集上的 ContactGen 方法生成与比较方法相比更加真实多样的姿势。

Jan, 2024

基于关键帧并行跳跃变换的文本引导下的三维人体动作生成

提出了一种名为 KeyMotion 的方法，通过生成关键帧并进行填充，实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器（VAE）将关键帧投影到潜空间，来减少维度和加速扩散过程。同时，引入了一种新的并行跳过注意力机制的 Transformer，用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充，确保运动序列的保真度和遵循人体运动的物理约束。实验证明，该方法在 HumanML3D 数据集上达到了最先进的结果，所有 R-Precision 度量和多模态距离指标均优于其他方法。同时，在 KIT 数据集上也获得了有竞争力的性能，在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。

May, 2024