TAAT：从任意文本思考和行动的Text2Motion

Apr, 2024

TAAT：从任意文本思考和行动的Text2Motion

TAAT: Think and Act from Arbitrary Texts in Text2Motion

Runqi Wang, Caoyuan Ma, GuoPeng Li, Zheng Wang

TL;DRText2Motion旨在从文本中生成人体动作。本文重新定义了此问题，以更现实的假设为基础，即文本可以是任意的。通过在HumanML3D数据集上扩展动作文本以涵盖更多场景文本，创建了HumanML3D++数据集。在这个挑战性的数据集中，我们提出了一个新颖的两阶段框架来从任意文本中提取动作标签并生成动作。通过不同的应用场景进行广泛实验证明了该方法在现有和提出的数据集上的有效性。结果表明，在这个现实的设置中，Text2Motion是非常具有挑战性的，为这个实际方向的新研究提供了动力。我们将发布数据集和代码。

Abstract

text2motion aims to generate human motions from texts. Existing datasets rely on the assumption that texts include action labels (such as

发现论文，激发创造

KIT运动语言数据集

本研究提出了KIT运动-语言数据集，该数据集包括来自多个动作捕捉数据库的数据，并使用统一的表示法聚合，以获得自然语言的动作注释，通过困惑度选择和众包方法进行注释。该数据集包含3911个运动，6278个自然语言注释，使人类运动和自然语言之间的语义表示研究变得更加透明和可比较。

Jul, 2016

从文字描述中合成构成动画

本文针对自然语言描述的运动合成问题，提出了一种基于两级流模型的生成复合动作的技术，利用两个流分别表示上下半身的动作，能够有效地生成短句和复合句中描述的3D姿态序列，与已有研究相比，实验结果表明我们的模型在客观评价方面进步了50%以上，在主观评价方面也得到了很好的实验结果。

Mar, 2021

TM2T: 随机和分词建模用于生成3D人体动作和文本的互相作用

本文探讨了从文本生成3D全身运动的问题，并提出了运动令牌的使用方法，结合神经机器翻译模型进行任务的处理，通过实验数据对比，表明我们的方法在这两个任务上具有优越性。

Jul, 2022

TEACH：针对3D人体的时间动作组合

利用 BABEL 动作文本集合，设计了一种基于 Transformer 的 TEACH 方法，能够根据自然语言描述生成符合语义的 3D 人体动作，实现由多个动作组成的时间动作构成。

Sep, 2022

基于文本的人体运动生成与多视角关注机制

基于文本描述生成的3D人体动作一直以来都是一个研究焦点，本文提出了使用多角度注意机制的两阶段方法，即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制，通过生成变压器实现文本驱动的运动生成，在HumanML3D和KIT-ML上的实验证明了我们方法在定性和定量评估方面优于现有的技术，并实现了精细合成和动作生成。

Sep, 2023

多样动作：通过离散扩散实现多样人体动作生成

DiverseMotion 是一种新的方法，通过保持运动多样性，在基于文本描述的高质量人体运动合成中为优先适应训练运动而牺牲动作多样性的现有方法提供解决方案。

Sep, 2023

Fg-T2M：基于扩散模型的精细文本驱动人体运动生成

通过结合语言结构辅助模块和上下文感知渐进推理模块，我们提出了一种细粒度的方法，用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明，我们的方法在HumanML3D和KIT测试集上胜过了基于文本驱动的动作生成方法，并能够根据文本条件生成更好的视觉确认动作。

Sep, 2023

故事到动作: 从长篇文本合成无限和可控制的角色动画

使用大型语言模型作为驱动，我们提出了一种新颖系统来从长文本中提取控制、无限长的运动轨迹和动作，并解决了从文本描述生成运动时的位置约束和不稳定性的问题，同时在轨迹跟随、时间动作组合和动作混合等子任务中的综合性能也超过了现有的合成方法。

Nov, 2023

从细粒度文本描述生成运动

建立一个大规模的细粒度文本-运动数据集FineHumanML3D，并设计一种新的文本生成运动模型FineMotionDiffuse，以更好地生成空间/时间上的综合动作。

Mar, 2024

通过强化学习学习具有通用性的人体运动生成器

以文本为驱动的人体动作生成作为计算机辅助内容创作的重要任务之一，近年来越来越受到关注。本文提出了一种以马尔可夫决策过程为基础的文本到动作生成算法InstructMotion，通过优化奖励设计，同时在配对数据和合成文本数据上进行训练，实现了全局语义级别的文本与动作对齐和更好地对新的提示进行泛化，从而在定量和定性上取得了出色的性能。

May, 2024