Mar, 2024

BAMM: 双向自回归运动模型

TL;DR提出了一种新的文本到动作生成框架:Bidirectional Autoregressive Motion Model (BAMM),它由两个关键组件组成:将 3D 人体动作转换为潜在空间中的离散标记的动作分词器和通过混合注意掩蔽策略自回归预测随机屏蔽标记的掩蔽自注意力变换器。通过统一生成掩蔽建模和自回归建模,BAMM 捕捉了动作标记之间丰富而双向的依赖关系,同时学习了从文本输入到动作输出的概率映射,并具有动态调整的动作序列长度。大量在 HumanML3D 和 KIT-ML 数据集上的实验证明,BAMM 在定性和定量指标上均超过了当前最先进的方法。