Dec, 2023

基于交叉扩散模型的逼真人体动作生成

TL;DR我们介绍了跨人类运动扩散模型(CrossDiff),这是一种基于文本描述生成高质量人体运动的新方法。我们的方法使用共享的变换器网络在扩散模型的训练中整合了 3D 和 2D 信息,将运动噪声统一到一个特征空间中。这使得特征能够被解码为 3D 和 2D 运动表示,而不管它们的原始维度如何。CrossDiff 的主要优势在于其跨扩散机制,它允许模型在训练过程中将 2D 或 3D 噪声转化为清晰的运动。这种能力利用了 3D 和 2D 运动表示中的互补信息,捕捉了常常被单纯依赖 3D 信息的模型所忽视的复杂人体运动细节。因此,CrossDiff 有效地结合了两种表示的优势,生成了更加真实的运动序列。在我们的实验中,我们的模型在文本到运动基准上展示了具有竞争力的最新性能。此外,我们的方法始终提供了增强的运动生成质量,捕捉了复杂的全身运动细节。此外,在具有预训练模型的情况下,我们的方法适用于在训练过程中使用野外 2D 运动数据而无需 3D 运动的真实值来生成 3D 运动,凸显了其在更广泛应用和有效利用可用数据资源方面的潜力。