Dec, 2023

MMM:生成遮蔽动作模型

TL;DR基于掩码动作模型的新颖且简单的 MMM 运动生成范例旨在解决实时性、高保真度和动作可编辑性之间的权衡。通过将 3D 人体动作转换成潜空间中的离散标记序列以及根据预计算的文本标记条件预测随机掩码动作标记的条件掩码动画变换器,MMM 明确捕捉动作标记之间的内在依赖性和动作标记与文本标记之间的语义映射,并实现了与细粒度文本描述高度一致的多个动作标记的并行和迭代解码,从而同时实现了高保真度和高速度的动作生成。此外,MMM 具有固有的动作可编辑性,只需在需要编辑的位置放置掩码标记,即可自动填充空白部分并保证编辑和非编辑部分之间的平滑过渡。对 HumanML3D 和 KIT-ML 数据集进行的大量实验表明 MMM 在生成高质量动画方面超过了当前领先的方法(FID 得分分别为 0.08 和 0.429),同时还提供了诸如身体部位修改、动作插值和长动作序列合成等先进的编辑功能。此外,与可编辑动作扩散模型相比,MMM 在单个中档 GPU 上的速度提高了两个数量级。