多样动作:通过离散扩散 实现多样人体动作生成
MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架,可以通过概率映射、真实的合成方式,以及多级操作等方法,有效地生成复杂和多种变化的人类运动。
Aug, 2022
文本到动作生成是一项艰巨的任务,本文介绍一种优先级中心的运动分散扩散模型(M2DM),利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示,通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型,它采用了一种创新的噪声调度方式,根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作,从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术,尤其对于复杂的文本描述。
Aug, 2023
本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息,通过基于 Transformer 的扩散框架,实现了多个数据集中任意数量主题或帧的生成。实验证明,我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。
May, 2024
本文引入了 Motion Diffusion Model(MDM),这是一种经过精心设计的无分类器扩散生成模型,适用于人体运动领域,并在文本转运动和动作转运动的领先基准测试中实现了最先进的结果。
Sep, 2022
本文针对现有智能场景下的动作合成技术存在的目标、位置预定及动作多样性不足等问题,提出了一种基于多样性因素的分层框架方法,以提高人类动作合成的自然度与多样性。实验表明,该框架在场景感知的人类动作合成中具有很好的效果。
May, 2022
本研究介绍一种基于学习的方法,用于从文本描述中生成高质量的人类运动序列,通过在频域上进行文本条件下的人体运动生成,实现了更多样化和平滑的运动序列生成。
Dec, 2023
提出了一种基于强化学习的方法来处理 3D 室内场景中虚拟人类与环境以及物体的交互,包括生成运动模型、创新的碰撞回避奖励函数、基于标记体和半径场的交互感知奖励函数以及训练策略等多个方面,实验结果表明,该方法在运动的自然性和多样性方面都优于现有的人 - 场景交互综合框架。
May, 2023
Controllable generation of 3D human motions using MotionMix, a weakly-supervised diffusion model, achieves state-of-the-art performances on text-to-motion, action-to-motion, and music-to-dance tasks.
Jan, 2024
我们介绍了跨人类运动扩散模型(CrossDiff),这是一种基于文本描述生成高质量人体运动的新方法。我们的方法使用共享的变换器网络在扩散模型的训练中整合了 3D 和 2D 信息,将运动噪声统一到一个特征空间中。这使得特征能够被解码为 3D 和 2D 运动表示,而不管它们的原始维度如何。CrossDiff 的主要优势在于其跨扩散机制,它允许模型在训练过程中将 2D 或 3D 噪声转化为清晰的运动。这种能力利用了 3D 和 2D 运动表示中的互补信息,捕捉了常常被单纯依赖 3D 信息的模型所忽视的复杂人体运动细节。因此,CrossDiff 有效地结合了两种表示的优势,生成了更加真实的运动序列。在我们的实验中,我们的模型在文本到运动基准上展示了具有竞争力的最新性能。此外,我们的方法始终提供了增强的运动生成质量,捕捉了复杂的全身运动细节。此外,在具有预训练模型的情况下,我们的方法适用于在训练过程中使用野外 2D 运动数据而无需 3D 运动的真实值来生成 3D 运动,凸显了其在更广泛应用和有效利用可用数据资源方面的潜力。
Dec, 2023
该论文提出了一种基于扩散的随机人体运动预测框架 DiffMotion,旨在预测未来的姿势序列,并通过使用多阶段图卷积网络和方差调度器,使预测结果准确、逼真、一致,同时在准确度和保真度方面明显优于先前的方法,并通过基准数据集展现了强大的鲁棒性。
May, 2023