RapVerse: 从文本生成连贯的歌词与整体身体动作

May, 2024

RapVerse: 从文本生成连贯的歌词与整体身体动作

RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text

Jiaben Chen, Xin Yan, Yihang Chen, Siyuan Cen, Qinwei Ma...

TL;DR通过将三维整体身体动作和唱歌声音联合生成，我们的研究工作在文本歌词输入方面取得了进展，并建立了整体人体动作和声音生成的新基准。

Abstract

In this work, we introduce a challenging task for simultaneously generating 3D holistic body motions and singing vocals directly from textual lyrics inputs, advancing beyond existing works that typically address

3d body motions singing vocals textual lyrics multimodal transformers vocal-motion generation

发现论文，激发创造

TM2D: 基于双模态驱动的音乐文本融合三维舞蹈生成

本文提出了一种用于生成 3D 舞蹈动作的创新任务，该任务同时加入了文本和音乐模态。本文通过使用基于 3D 人类运动 VQ-VAE 的交叉模态变压器，将这两个数据集的运动投影到由量化向量组成的潜在空间中，并引入 Motion Prediction Distance 和 Freezing Score 两个新指标，成功生成了健康的、连贯的舞蹈动作。

Apr, 2023

SpeechAct: 从语音生成全身动作

通过使用混合点表示，并结合对比运动学习方法，本研究提出了一种从语音中生成全身动作的模型，以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。

Nov, 2023

多模态多部分人体动作综合的统一框架

通过量化多种身体部位的运动为其各自领域定制的码本，利用预训练模型将多模态信号转换为共享的潜在空间，并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌，最后从令牌序列中重构连续的实际运动。我们的研究方法将多模态动作生成挑战框架定义为令牌预测任务，利用基于控制信号模态的专门码本，具有可扩展性，能够轻松整合新的模态。广泛的实验证明了我们设计的有效性并强调了其广泛应用的潜力。

Nov, 2023

朝着变量和协调的整体语音运动生成

通过 ProbTalk 的统一概率框架，以综合协调性和可变性为核心，生成自然多样的整体语音运动，从而比现有方法在质量和数量上都实现了更高的真实度。

Mar, 2024

超越言语 -- 为沟通生成整体性的三维人类二人运动

本文介绍了一个创新任务，重点关注人类沟通，旨在生成说话者和听众的三维整体人体动作。我们的方法的核心是将因子分解与文本语义信息相结合，从而更真实和协调地生成动作。我们分别训练 VQ-VAEs 来处理说话者和听众的整体动作，并考虑了说话者和听众之间的实时相互影响，提出了一种新颖的基于链式变换器的自回归模型，专门设计用于有效描述现实世界的沟通场景，可以同时生成说话者和听众的动作。这些设计确保了我们生成的结果既协调又多样化。我们的方法在两个基准数据集上展示出最先进的性能。此外，我们还介绍了 HoCo 整体沟通数据集，这是未来研究的宝贵资源。我们的 HoCo 数据集和代码将在被接受后用于研究目的发布。

Mar, 2024

BodyFormer：基于 Transformer 的语义引导的三维身体手势合成

提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架，通过学习语音和三维手势之间的映射，使用概率分布生成多样化的手势，并通过预训练方案解决数据稀缺性问题，结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。

Sep, 2023

从语音中生成自由形式的身体动作

该论文提出了一种新型的自由形式动作生成模型（FreeMo），通过将共同话语动作分解为姿态模式和节奏动力学，利用两条流架构实现姿态的多样性生成和语音韵律同步的节奏动力学合成，从而在几个基准测试中展示出优秀的性能。

Mar, 2022

DeepRapper: 用韵律和节奏建模生成说唱音乐的神经网络

DeepRapper 是一种基于 Transformer 的说唱生成系统，可以模拟说唱的韵律和节奏，通过逆向生成具备韵律表现形式的歌词，并在其中插入特殊符号以表现节奏，在宏观和微观层面上评估显示 DeepRapper 生成的歌曲质量高且具有创造性。

Jul, 2021

使用条件变分自编码器从语音音频生成多样化手势

通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分，结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器，从而更加真实和多样的生成语音到动作的映射。

Aug, 2021

TEMOS: 从文本描述生成多样化的人类动作

本文介绍了使用文本描述生成多样的 3D 人类动作的方法，并提出了 TEMOS 框架，它是一种基于变分自编码器的文本条件生成模型，可以产生多种不同的人体动作，实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。

Apr, 2022