Jan, 2024

文本驱动的人体动作生成的逐渐丰富合成

TL;DR本研究提出了一种基于级联扩散的生成框架,用于文本驱动的人体动作合成,该框架利用了一种名为GradUally Enriching SyntheSis(GUESS)的策略。通过将语义上紧密相连的身体关节进行聚类分组,并用单个身体部分节点替换每个关节组,该策略逐步将人体姿态抽象为多个粒度级别上的更粗糙的骨架。采用逐渐增加的抽象级别,人体动作变得更加简洁和稳定,显著改善了跨模态动作合成任务。然后,将整个文本驱动的人体动作合成问题划分为多个抽象级别,并利用级联潜在扩散模型的多阶段生成框架解决:初始生成器首先从给定的文本描述中生成最粗糙的人体动作猜测;然后,一系列连续的生成器根据文本描述和之前合成的结果逐渐丰富动作细节。值得注意的是,我们进一步将GUESS与所提出的动态多条件融合机制相结合,以动态平衡给定的文本条件和合成粗动作提示在不同生成阶段的合作效应。大规模数据集上的广泛实验证明,GUESS在准确性、逼真度和多样性方面优于现有的最先进方法。