SpeechAct: 从语音生成全身动作

Nov, 2023

SpeechAct: Towards Generating Whole-body Motion from Speech

Jinsong Zhang, Minjie Zhu, Yuxiang Zhang, Yebin Liu, Kun Li

TL;DR通过使用混合点表示，并结合对比运动学习方法，本研究提出了一种从语音中生成全身动作的模型，以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。

Abstract

This paper addresses the problem of generating whole-body motion from speech. Despite great successes, prior methods still struggle to produce reasonable and diverse whole-body motions from →

whole-body motion speech hybrid point representation motion generation contrastive motion learning

发现论文，激发创造

基于语音的手势生成输入输出特征分析

本文提出了一种新的自动化语音驱动姿势生成框架，适用于人 - 代理交互，包括虚拟代理和机器人，并首次将表示学习应用于语音驱动姿势生成。

Mar, 2019

朝着变量和协调的整体语音运动生成

通过 ProbTalk 的统一概率框架，以综合协调性和可变性为核心，生成自然多样的整体语音运动，从而比现有方法在质量和数量上都实现了更高的真实度。

Mar, 2024

从语音中生成自由形式的身体动作

该论文提出了一种新型的自由形式动作生成模型（FreeMo），通过将共同话语动作分解为姿态模式和节奏动力学，利用两条流架构实现姿态的多样性生成和语音韵律同步的节奏动力学合成，从而在几个基准测试中展示出优秀的性能。

Mar, 2022

BodyFormer：基于 Transformer 的语义引导的三维身体手势合成

提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架，通过学习语音和三维手势之间的映射，使用概率分布生成多样化的手势，并通过预训练方案解决数据稀缺性问题，结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。

Sep, 2023

多模态多部分人体动作综合的统一框架

通过量化多种身体部位的运动为其各自领域定制的码本，利用预训练模型将多模态信号转换为共享的潜在空间，并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌，最后从令牌序列中重构连续的实际运动。我们的研究方法将多模态动作生成挑战框架定义为令牌预测任务，利用基于控制信号模态的专门码本，具有可扩展性，能够轻松整合新的模态。广泛的实验证明了我们设计的有效性并强调了其广泛应用的潜力。

Nov, 2023

CodeTalker: 利用离散运动先验驱动的语音驱动 3D 面部动画

本文提出将基于语音的面部动画转化为在学习到的码本的有限代理空间中的代码查询任务，有效地减少了跨模态映射的不确定性，从而提高了生成的运动的生动性，并且通过使用一个自动回归模型，演示了我们方法在视觉和感知质量上均优于当前最先进的方法。

Jan, 2023

使用条件变分自编码器从语音音频生成多样化手势

通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分，结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器，从而更加真实和多样的生成语音到动作的映射。

Aug, 2021

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

从语音中学习地标运动以获取说话人不可知的 3D 语音生成

本篇研究提出了一种新方法，通过音频输入生成 3D 说话人头部动画，并利用面部的传动部位上的控制点来描述语音相关的运动，并利用两个不同的模型来实现；该方法具有身份不相关性，可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点，例如一致性，可靠性和不需要手动注释。

Jun, 2023

RapVerse: 从文本生成连贯的歌词与整体身体动作

通过将三维整体身体动作和唱歌声音联合生成，我们的研究工作在文本歌词输入方面取得了进展，并建立了整体人体动作和声音生成的新基准。

May, 2024