TLControl:人体运动综合的轨迹和语言控制
本文介绍了使用文本描述生成多样的3D人类动作的方法,并提出了TEMOS框架,它是一种基于变分自编码器的文本条件生成模型,可以产生多种不同的人体动作,实验证明TEMOS框架在KIT Motion-Language基准测试中取得了显著的改进。
Apr, 2022
MotionDiffuse是一种基于扩散模型的文本驱动运动生成框架, 可以通过概率映射、真实的合成方式, 以及多级操作等方法, 有效地生成复杂和多种变化的人类运动。
Aug, 2022
ATOM通过将动作分解为原子动作,并采用课程学习策略来组合原子动作,从而更好地适应新动作。同时引入了渐进式的蒙版运动建模的课程学习训练策略,有效缓解了过拟合问题,并提高了运动表示的学习质量。通过广泛的实验,包括文本到运动和动作到运动合成任务,证明了ATOM的有效性,并展示了它在合成可行和连贯的文本指导人体动作序列方面的优势。
Aug, 2023
提出了一种利用分层语义图实现对人体运动生成的细粒度控制的方法,通过将运动描述分解成三个层次的语义图,从整体到局部的结构帮助全面理解运动描述和对运动生成进行细粒度控制,并对分解的文本到运动扩散过程进行了优化,通过修改分层语义图的边权重,实现了生成运动的持续细化,具有超过基准数据集HumanML3D和KIT的优越性能。
Nov, 2023
在这项工作中,我们提出了一种名为Controllable Human-Object Interaction Synthesis (CHOIS)的方法,它利用语言描述、初始物体和人体状态以及稀疏的物体路点同时生成物体运动和人体动作,通过引入物体几何损失和设计指导项来提高生成的物体运动和输入物体路点之间的匹配,并确保与地板接触的精确手-物体接触和适当接触的真实性。
Dec, 2023
本研究提出了一种基于级联扩散的生成框架,用于文本驱动的人体动作合成,该框架利用了一种名为GradUally Enriching SyntheSis(GUESS)的策略。通过将语义上紧密相连的身体关节进行聚类分组,并用单个身体部分节点替换每个关节组,该策略逐步将人体姿态抽象为多个粒度级别上的更粗糙的骨架。采用逐渐增加的抽象级别,人体动作变得更加简洁和稳定,显著改善了跨模态动作合成任务。然后,将整个文本驱动的人体动作合成问题划分为多个抽象级别,并利用级联潜在扩散模型的多阶段生成框架解决:初始生成器首先从给定的文本描述中生成最粗糙的人体动作猜测;然后,一系列连续的生成器根据文本描述和之前合成的结果逐渐丰富动作细节。值得注意的是,我们进一步将GUESS与所提出的动态多条件融合机制相结合,以动态平衡给定的文本条件和合成粗动作提示在不同生成阶段的合作效应。大规模数据集上的广泛实验证明,GUESS在准确性、逼真度和多样性方面优于现有的最先进方法。
Jan, 2024
MotionChain是一个用于生成连续和长期人体动作的对话人体动作控制器,通过多模式提示不断增进了对多回合对话的理解,并生成与之对应的人体动作。
Apr, 2024
通过利用多语言多模态学习模型(MLLMs)的无动作数据,我们首次探索了基于自然语言指令的开放式人类动作合成,实现了通用的人类动作合成,为未来的研究铺平了道路。
Jun, 2024
本研究解决了现有语音驱动三维运动合成方法中仅依赖语音音频导致的不准确和缺乏灵活性的问题。提出的T3M方法通过文本输入实现了对运动合成的精确控制,显著提高了多样性和用户定制化能力。实验结果显示,T3M在定量指标和定性评估上均远超现有最先进的方法,有望在虚拟现实、游戏和电影制作中产生重大影响。
Aug, 2024
本研究解决了文本驱动的人类运动生成面临的挑战,特别是如何创建连续且复杂的动作,以响应长期文本描述。提出的DART模型通过结合运动历史和文本输入,使用潜在扩散模型学习紧凑的运动原语空间,实现了实时的动作生成,并在运动现实性、效率和可控性方面超越了现有基线。
Oct, 2024