人体运动生成调查
该研究通过利用单个图像,结合人体骨骼信息、姿态运动、外观参照和triplet loss,构建一个条件 GAN 框架,能够生成更真实的动态人体运动序列。研究数据集包括KTH和Human3.6M。
Jul, 2017
本文中提出了一种统一的深度生成网络,用于多样化和可控的人体运动预测,该网络基于正则化流姿势先验和关节角损失函数,能够有效地提高模型的准确性和样本多样性。
Aug, 2021
MotionDiffuse是一种基于扩散模型的文本驱动运动生成框架, 可以通过概率映射、真实的合成方式, 以及多级操作等方法, 有效地生成复杂和多种变化的人类运动。
Aug, 2022
本文引入了Motion Diffusion Model(MDM),这是一种经过精心设计的无分类器扩散生成模型,适用于人体运动领域,并在文本转运动和动作转运动的领先基准测试中实现了最先进的结果。
Sep, 2022
提出了一个名为HUMANISE的大规模、语义丰富的合成HSI数据集,并开展了一项名为Language-conditioned Human Motion Generation的新一代任务,以及相应的在场景和语言指导下的生成模型,该模型能够在3D场景中产生多样化且语义一致的人体动作。
Oct, 2022
本文提出了一种用于生成各种姿态和提示的基于文本的人体运动生成模型Make-An-Animation,训练包括使用从大规模图像文本数据集中提取得到的(文本,静态伪姿势)对的精选大规模数据集以及微调运动捕捉数据,并使用U-Net架构,达到了text-to-motion生成中最先进的性能水平。
May, 2023
本文提出了一种使用多模态控制信号的运动通用生成器(MotionGPT),它将多模态信号作为大型语言模型(LLMs)中的特殊输入令牌来生成连续的人类动作,是首次使用多模态控制信号生成人类动作的方法。
Jun, 2023
本研究提出了一种基于级联扩散的生成框架,用于文本驱动的人体动作合成,该框架利用了一种名为GradUally Enriching SyntheSis(GUESS)的策略。通过将语义上紧密相连的身体关节进行聚类分组,并用单个身体部分节点替换每个关节组,该策略逐步将人体姿态抽象为多个粒度级别上的更粗糙的骨架。采用逐渐增加的抽象级别,人体动作变得更加简洁和稳定,显著改善了跨模态动作合成任务。然后,将整个文本驱动的人体动作合成问题划分为多个抽象级别,并利用级联潜在扩散模型的多阶段生成框架解决:初始生成器首先从给定的文本描述中生成最粗糙的人体动作猜测;然后,一系列连续的生成器根据文本描述和之前合成的结果逐渐丰富动作细节。值得注意的是,我们进一步将GUESS与所提出的动态多条件融合机制相结合,以动态平衡给定的文本条件和合成粗动作提示在不同生成阶段的合作效应。大规模数据集上的广泛实验证明,GUESS在准确性、逼真度和多样性方面优于现有的最先进方法。
Jan, 2024
本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息,通过基于Transformer的扩散框架,实现了多个数据集中任意数量主题或帧的生成。实验证明,我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。
May, 2024
综述了人体视频生成领域的最新研究进展和存在的挑战,包括人体视频生成的基本原理、生成模型的发展、基于文本、音频和姿态驱动的运动生成方法,以及评估生成视频质量和实际性的数据集和指标。为研究人员提供了对人体视频生成领域的全面了解,并指出了未来研究的可能方向。
Jul, 2024