Nov, 2023

MoMask: 生成式遮蔽建模 3D 人体动作

TL;DRMoMask 是一种新颖的掩码建模框架,用于文本驱动的 3D 人体动作生成,通过分层量化方案将人体动作表示为多层离散动作令牌,并使用两个不同的双向转换器进行预测和填补,实验证明在文本到动作生成任务中,MoMask 在 HumanML3D 数据集上的 FID 为 0.045(相较于 T2M-GPT 的 0.141)以及在 KIT-ML 上的 FID 为 0.228(相较于 0.514),同时可以无缝应用于文本引导的时间修补等相关任务。