May, 2024

LGTM: 本地到全局的文本驱动人体运动扩散模型

TL;DR本研究介绍了 LGTM,一种面向文本到动作生成的新颖的本地到全局流程。LGTM 利用扩散式架构,旨在解决将文本描述准确转化为在计算机动画中语义一致的人体动作的挑战。我们通过引入两阶段的流程来克服语义差异的问题,首先使用大型语言模型将全局动作描述分解为特定部位的叙述,然后使用独立的身体部位运动编码器处理以确保准确的局部语义对齐。最后,基于注意力机制的全身优化器对运动生成结果进行细化,并确保整体一致性。实验结果表明,LGTM 在生成局部准确、语义对齐的人体动作方面取得了显著改进,标志着文本到动作应用的重要进展。