MCM：多情景多条件动作合成框架

Sep, 2023

MCM: Multi-condition Motion Synthesis Framework for Multi-scenario

Zeyu Ling, Bo Han, Yongkang Wong, Mohan Kangkanhalli, Weidong Geng

TL;DR多条件人体动作合成任务的目标是结合多样的条件输入，例如文本、音乐、语音等，使任务能够适应于多种场景，从文本到动作、音乐到舞蹈等。本文引入了 MCM 框架，通过与任何 DDPM 类扩散模型相结合，实现多条件信息输入，同时保持其生成能力。我们还引入了一种基于 Transformer 的扩散模型 MWNet 作为我们的主要分支，通过通道维度的自注意力模块捕捉运动序列中的空间复杂性和关节之间的相关性。定量比较表明，我们的方法在文本到动作任务中取得了 SOTA 结果，并在音乐到舞蹈任务中取得了竞争性结果，可与任务特定的方法相媲美。此外，定性评估表明，MCM 不仅简化了原本设计用于文本到动作任务的方法在音乐到舞蹈和语音到手势等领域的适应性，消除了对网络重构的需求，而且实现了有效的多条件模态控制，实现了 “训练一次，生成动作无限”。

Abstract

The objective of the multi-condition human motion synthesis task is to incorporate diverse conditional inputs, encompassing various forms like text, music, speech, and more. This endows the task with the capability to adapt across multiple scenarios, ranging from text-to-motion and mus

multi-condition human motion synthesis mcm framework ddpm-like diffusion model transformer-based diffusion model adaptation of methodologies

发现论文，激发创造

MCM：多条件运动合成框架

提出了基于双分支结构的多条件人体运动合成（MCM）框架，其中主分支采用基于 Transformer 的扩散模型（MWNet），有效扩展了扩散模型的适用性，同时保持运动的固有质量和语义关联能力。在单条件和多条件人体运动合成任务中实现了有竞争力的结果。

Apr, 2024

多模态多部分人体动作综合的统一框架

通过量化多种身体部位的运动为其各自领域定制的码本，利用预训练模型将多模态信号转换为共享的潜在空间，并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌，最后从令牌序列中重构连续的实际运动。我们的研究方法将多模态动作生成挑战框架定义为令牌预测任务，利用基于控制信号模态的专门码本，具有可扩展性，能够轻松整合新的模态。广泛的实验证明了我们设计的有效性并强调了其广泛应用的潜力。

Nov, 2023

基于多条件扩散模型的语言驱动场景合成

通过结合文字提示、人体动作和现有物体来进行多模态场景合成的多条件扩散模型，理论上支持，实验证明优于最先进的基准，并可实现自然场景编辑应用。

Oct, 2023

使用扩散模型进行受形状限制的人体动作生成

我们提出了一种基于形状条件的运动扩散模型（SMD），该模型可以直接在网格格式中生成运动序列，并结合了频谱 - 时间自编码器（STAE）以在频谱域内利用跨时依赖关系。通过广泛的实验评估，我们证明了 SMD 不仅可以生成栩栩如生的真实动作，而且在文本转换和动作转换任务中与最先进的方法相比具有竞争力的性能。

May, 2024

运动乐章：将静态图像转化为动态视频

通过将语义和动作线索整合到扩散模型中，我们引入了一种用于视频生成的新方法，它显著提升了视频质量、动作精度和语义连贯性。

Mar, 2024

多样动作：通过离散扩散实现多样人体动作生成

DiverseMotion 是一种新的方法，通过保持运动多样性，在基于文本描述的高质量人体运动合成中为优先适应训练运动而牺牲动作多样性的现有方法提供解决方案。

Sep, 2023

基于运动条件的扩散模型用于可控视频合成

介绍了一种使用条件扩散模型的视频合成方法（MCDiff），可以通过一组笔画控制视频的内容和动态，达到了良好的视觉效果。

Apr, 2023

FreeMotion：多模态大型语言模型的无动捕人体动作合成

通过利用多语言多模态学习模型（MLLMs）的无动作数据，我们首次探索了基于自然语言指令的开放式人类动作合成，实现了通用的人类动作合成，为未来的研究铺平了道路。

Jun, 2024

TM2D: 基于双模态驱动的音乐文本融合三维舞蹈生成

本文提出了一种用于生成 3D 舞蹈动作的创新任务，该任务同时加入了文本和音乐模态。本文通过使用基于 3D 人类运动 VQ-VAE 的交叉模态变压器，将这两个数据集的运动投影到由量化向量组成的潜在空间中，并引入 Motion Prediction Distance 和 Freezing Score 两个新指标，成功生成了健康的、连贯的舞蹈动作。

Apr, 2023

DanceCamera3D：音乐和舞蹈的三维摄像机运动合成

通过提出多模态三维数据集 DCM 和基于 Transformer 的扩散模型 DanceCamera3D，综合定量和定性证据显示了 DanceCamera3D 模型的有效性，以解决舞蹈摄像机运动与音乐和舞蹈的综合问题。

Mar, 2024