HumanMAC: 用于人体动作预测的遮挡运动补全技术
本文提出了一种用于 3D 动作识别的 Masked Motion Prediction(MAMP)框架,通过对蒙面的空间 - 时间骨骼序列进行预测,实现对丰富语义区域的更好关注,进而提高自监督预训练的性能。经过对 NTU-60、NTU-120 和 PKU-MMD 数据集的广泛实验,表明所提出的 MAMP 预训练方法显著提高了基础的 transformer 模型的性能,并取得了最先进的结果。MAMP 的源代码可以在给定的网址上找到。
Aug, 2023
UNIMASK-M 模型是一种任务独立模型,有效地解决了预测未来动作、填充已知关键动作之间的中间姿势等挑战,通过将人体姿势分解为身体部位并利用存在于人体运动中的时空关系,将各种面向姿势的运动综合任务重新定义为使用不同屏蔽模式的重构问题。实验结果表明,该模型在 Human3.6M 数据集上成功预测了人体运动,并在 LaFAN1 数据集上实现了时长较长的过渡期内的运动插值的最新成果。
Aug, 2023
基于掩码动作模型的新颖且简单的 MMM 运动生成范例旨在解决实时性、高保真度和动作可编辑性之间的权衡。通过将 3D 人体动作转换成潜空间中的离散标记序列以及根据预计算的文本标记条件预测随机掩码动作标记的条件掩码动画变换器,MMM 明确捕捉动作标记之间的内在依赖性和动作标记与文本标记之间的语义映射,并实现了与细粒度文本描述高度一致的多个动作标记的并行和迭代解码,从而同时实现了高保真度和高速度的动作生成。此外,MMM 具有固有的动作可编辑性,只需在需要编辑的位置放置掩码标记,即可自动填充空白部分并保证编辑和非编辑部分之间的平滑过渡。对 HumanML3D 和 KIT-ML 数据集进行的大量实验表明 MMM 在生成高质量动画方面超过了当前领先的方法(FID 得分分别为 0.08 和 0.429),同时还提供了诸如身体部位修改、动作插值和长动作序列合成等先进的编辑功能。此外,与可编辑动作扩散模型相比,MMM 在单个中档 GPU 上的速度提高了两个数量级。
Dec, 2023
MoMask 是一种新颖的掩码建模框架,用于文本驱动的 3D 人体动作生成,通过分层量化方案将人体动作表示为多层离散动作令牌,并使用两个不同的双向转换器进行预测和填补,实验证明在文本到动作生成任务中,MoMask 在 HumanML3D 数据集上的 FID 为 0.045(相较于 T2M-GPT 的 0.141)以及在 KIT-ML 上的 FID 为 0.228(相较于 0.514),同时可以无缝应用于文本引导的时间修补等相关任务。
Nov, 2023
提出了一种基于生成模型的新的 out-of-distribution (OoD) 基准,用于预测人类运动,并且这种方法能够有效地提高模型的鲁棒性和可解释性。
Oct, 2020
FlowMDM 是第一个基于扩散的模型,它生成无需后处理或冗余去噪步骤的无缝人体运动组合。通过引入融合位置编码的技术,在绝对阶段恢复了全局运动连贯性,在相对阶段构建了平滑真实的过渡。FlowMDM 能够在 Babel 数据集上取得准确性、真实性和平滑度等方面的最新成果,并且在推理时仅使用每个动作序列的单个描述,通过其面向姿势的跨注意力机制使其对不同文本描述具有鲁棒性。最后,为了解决现有 HMC 度量的局限性,我们提出了两个新的度量指标:峰值加速度和加速度下的面积,以检测突变的转换。
Feb, 2024
人体运动预测是高效和安全的人机协作的重要步骤。我们提出了一种新颖的人体运动预测框架,该框架在高斯过程回归模型中结合了人体关节约束和场景约束,以在一定时间范围内预测人体运动。该框架还结合了在线上下文感知约束模型来利用任务相关的运动,并在人机协作设置中使用 UR5 机器人手臂实现了实时性能。模拟和实验结果表明,当明确考虑这些约束条件时,高斯过程框架的性能得到了显著改善。
Oct, 2023
我们提出了 Prompted Contrast with Masked Motion Modeling (PCM3) 方法,通过互惠方式集成了对比学习和遮挡预测任务,极大地提高了在不同下游任务中的泛化能力。通过减少学习两个不同训练任务造成的干扰,并通过掩模预测为对比学习提供了新视角,指导了高级语义信息的预测训练。与现有的工作相比,在三个大规模数据集上进行了大量实验证明了 PCM3 方法的卓越泛化能力。
Aug, 2023
通过利用多语言多模态学习模型(MLLMs)的无动作数据,我们首次探索了基于自然语言指令的开放式人类动作合成,实现了通用的人类动作合成,为未来的研究铺平了道路。
Jun, 2024