从语音中生成自由形式的身体动作

Mar, 2022

从语音中生成自由形式的身体动作

Freeform Body Motion Generation from Speech

Jing Xu, Wei Zhang, Yalong Bai, Qibin Sun, Tao Mei

TL;DR该论文提出了一种新型的自由形式动作生成模型（FreeMo），通过将共同话语动作分解为姿态模式和节奏动力学，利用两条流架构实现姿态的多样性生成和语音韵律同步的节奏动力学合成，从而在几个基准测试中展示出优秀的性能。

Abstract

People naturally conduct spontaneous body motions to enhance their speeches while giving talks. Body motion generation from speech is inhe

speech body motions pose modes rhythmic dynamics motion generation

发现论文，激发创造

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

SpeechAct: 从语音生成全身动作

通过使用混合点表示，并结合对比运动学习方法，本研究提出了一种从语音中生成全身动作的模型，以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。

Nov, 2023

带节奏头部动作的虚拟说话人生成

本文提出一种基于 3D-aware 生成网络、混合嵌入和非线性合成模块的方法，通过显式建模头部运动和面部表情，精心处理 3D 动画以及动态嵌入参考图像，实现了可控、逼真、时序连贯的说话者头像视频，并在多个标准基准测试中表现出优异的结果。

Jul, 2020

BodyFormer：基于 Transformer 的语义引导的三维身体手势合成

提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架，通过学习语音和三维手势之间的映射，使用概率分布生成多样化的手势，并通过预训练方案解决数据稀缺性问题，结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。

Sep, 2023

Freetalker：基于扩散模型的可控语音和文本驱动手势生成以增强演讲者自然度

FreeTalker 是首个生成语音驱动的手势和文本驱动的演讲者动作的框架，使用来自多种动作数据集的异构数据，并利用扩散模型进行训练，以及利用无分类器引导和生成先验以实现平滑剪辑过渡。

Jan, 2024

多模态多部分人体动作综合的统一框架

通过量化多种身体部位的运动为其各自领域定制的码本，利用预训练模型将多模态信号转换为共享的潜在空间，并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌，最后从令牌序列中重构连续的实际运动。我们的研究方法将多模态动作生成挑战框架定义为令牌预测任务，利用基于控制信号模态的专门码本，具有可扩展性，能够轻松整合新的模态。广泛的实验证明了我们设计的有效性并强调了其广泛应用的潜力。

Nov, 2023

RapVerse: 从文本生成连贯的歌词与整体身体动作

通过将三维整体身体动作和唱歌声音联合生成，我们的研究工作在文本歌词输入方面取得了进展，并建立了整体人体动作和声音生成的新基准。

May, 2024

计划、姿势与前行：走向开放世界的文本转动作生成

该研究提出了名为 PRO-Motion 的拆分与解决框架，由运动规划器、姿势扩散器和动作扩散器三个模块组成，通过指示大型语言模型生成描述目标动作关键姿势的脚本序列，转化为真实的运动，从而实现了从复杂的开放世界提示生成多样且逼真的运动。

Dec, 2023

Speech2UnifiedExpressions: 从可负担的输入同步合成言语情感表情、面部表情和身体表情

使用 RGB 视频数据，我们提出了一种基于多模态学习的方法，可以同时合成数字角色的共语言面部表情和上半身动作。我们的方法从视频数据直接估计稀疏的面部关键点和上半身关节，并根据说话者的面部动作和身体关节动作合成合适的情感角色动作。通过对多个评估指标进行全面定量和定性实验证明，我们的方法具有低重建误差，能够为数字角色产生多样化的面部表情和身体动作。

Jun, 2024

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021