音乐指挥运动生成中的扩散模型驯服
我们提出了将扩散模型与生成对抗网络相结合的方法,旨在解决算法音乐生成中的情感控制和计算成本的问题。通过训练变分自编码器得到情感标签的符号音乐数据集的嵌入,并用其来训练扩散模型,我们成功地控制了扩散模型以生成具有特定情感的符号音乐,同时大幅提升了计算效率。
Oct, 2023
本文引入了 Motion Diffusion Model(MDM),这是一种经过精心设计的无分类器扩散生成模型,适用于人体运动领域,并在文本转运动和动作转运动的领先基准测试中实现了最先进的结果。
Sep, 2022
该研究提出了一种基于扩散模型的可控运动扩散模型 (COMODO) 框架,通过强化学习控制器和控制策略,实现了对虚拟角色的实时、多样化运动生成,可以适应用户的实时命令,同时还可以预测更多多样化的动作。
Jun, 2023
使用双向自回归扩散模型 (BADM) 生成与音乐相协调的舞蹈动作,通过在前后方向均保持协调一致的双向编码器和局部信息解码器,实现了生成新动作、平滑运动、提高舞蹈与节拍的同步性等功能。实验结果表明,该模型在音乐到舞蹈生成的重要基准上达到了最先进的性能。
Feb, 2024
本研究提出了 Diffusion Co-Speech Gesture(DiffGesture)框架,该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性, 通过弥散模型的设计思路, DiffGesture 可以在质量和多样性之间进行平衡,实现了高保真的音频驱动共话手势生成。
Mar, 2023
我们提出了一种基于扩散模型的即时人体运动风格转移学习方法,通过几分钟的微调学习,可以将未知的风格转移到不同的内容运动中,且仅需要一个风格示例和以中立运动为主的文本到运动数据集(例如 HumanML3D)。
Mar, 2024
本文提出了应用于人体动作合成的有向扩散模型的算法 GMD,并进行了大量实验验证,证明该算法在控制生成的动作的同时,显著提高了基于文本的运动生成的效果。
May, 2023
Controllable generation of 3D human motions using MotionMix, a weakly-supervised diffusion model, achieves state-of-the-art performances on text-to-motion, action-to-motion, and music-to-dance tasks.
Jan, 2024