Sep, 2023

MCM:多情景多条件动作合成框架

TL;DR多条件人体动作合成任务的目标是结合多样的条件输入,例如文本、音乐、语音等,使任务能够适应于多种场景,从文本到动作、音乐到舞蹈等。本文引入了 MCM 框架,通过与任何 DDPM 类扩散模型相结合,实现多条件信息输入,同时保持其生成能力。我们还引入了一种基于 Transformer 的扩散模型 MWNet 作为我们的主要分支,通过通道维度的自注意力模块捕捉运动序列中的空间复杂性和关节之间的相关性。定量比较表明,我们的方法在文本到动作任务中取得了 SOTA 结果,并在音乐到舞蹈任务中取得了竞争性结果,可与任务特定的方法相媲美。此外,定性评估表明,MCM 不仅简化了原本设计用于文本到动作任务的方法在音乐到舞蹈和语音到手势等领域的适应性,消除了对网络重构的需求,而且实现了有效的多条件模态控制,实现了 “训练一次,生成动作无限”。