BodyFormer：基于 Transformer 的语义引导的三维身体手势合成

Sep, 2023

BodyFormer：基于 Transformer 的语义引导的三维身体手势合成

BodyFormer: Semantics-guided 3D Body Gesture Synthesis with Transformer

Kunkun Pang, Dafei Qin, Yingruo Fan, Julian Habekost, Takaaki Shiratori...

TL;DR提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架，通过学习语音和三维手势之间的映射，使用概率分布生成多样化的手势，并通过预训练方案解决数据稀缺性问题，结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。

Abstract

automatic gesture synthesis from speech is a topic that has attracted researchers for applications in remote communication, video games and Metaverse. Learning the mapping between →

automatic gesture synthesis speech 3d body gesture synthesis transformer-based framework variational transformer

发现论文，激发创造

从视频中学习基于语音的 3D 对话手势

利用 CNN 架构及 GAN 模型自动综合逼真的 3D 虚拟人物之肢体手势，面部表情和语音生成，同时创造出三维身体、手部和面部数据，并利用多模态的 3D 姿态估计技术和训练，实现更加自然流畅的合成动画。

Feb, 2021

Body2Hands：从对话手势身体动态中学习推断三维手部模型

本文提出了一种基于学习深度先验的新型 3D 手部形态综合和估计方法，其中利用了身体运动和手势之间的相关性，采用网络进行 3D 手部姿态估计训练并得到了优良的效果。

Jul, 2020

音频全能化：使用 WavLM 预训练模型的语音驱动手势合成

该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”，通过原始语音音频产生个体化和风格化的全身共说手势，消除了复杂的多模态处理和手动注释的需求，实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。

Aug, 2023

语音驱动个性化手势合成：利用自动模糊特征推断

提出了一个全新的端到端生成模型，名为 Persona-Gestor，以原始语音音频为唯一输入生成高度个性化的 3D 全身手势，将模糊特征提取器和非自回归自适应层标准化 (AdaLN) 转换扩散结构相结合，并利用扩散模型进行训练和推断，通过在 Trinity、ZEGGS 和 BEAT 数据集上的广泛评估证实了其优越性能，提高了系统的可用性和泛化能力，拓宽了语音驱动手势合成的发展前景。

Mar, 2024

语义手势生成器：语义感知的共语手势合成

Semantic Gesticulator 是一个新颖的框架，旨在通过强有力的语义对应性合成伴随语音的逼真手势，通过大型语言模型的生成检索框架，有效地从动作库中检索合适的语义手势候选，以生成与语音节奏相匹配的高质量手势，通过语义对齐机制确保最终动画的自然性，证明了系统在生成节奏一致和语义明确的手势方面的稳健性。

May, 2024

情感手势：协同语音的多样情感共述三维手势生成

EmotionGesture 是一种从音频生成真实共语手势的新型框架，其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征，并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示，然后再用转换器模型生成 3D 共语手势，并通过运动平滑性添加稳定性来提高性能，并能够通过情感条件 VAE 生成丰富多样的情感结果。

May, 2023

SpeechAct: 从语音生成全身动作

通过使用混合点表示，并结合对比运动学习方法，本研究提出了一种从语音中生成全身动作的模型，以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。

Nov, 2023

从文本、音频、说话者身份的三模态上下文生成言语手势

本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型，使用新的手势生成度量标准和主观人类评估表明，该模型优于现有的端到端生成模型。

Sep, 2020

语音手势生成对话生成对话生成对话生成：机器人和具身化代理的手势生成

本文提出了一种新框架，可以根据语音文本和语音音频表达生成关节角度序列，经过客观和主观评估，证明了该手势生成框架对机器人和具身代理的有效性。

Sep, 2023

Speech2UnifiedExpressions: 从可负担的输入同步合成言语情感表情、面部表情和身体表情

使用 RGB 视频数据，我们提出了一种基于多模态学习的方法，可以同时合成数字角色的共语言面部表情和上半身动作。我们的方法从视频数据直接估计稀疏的面部关键点和上半身关节，并根据说话者的面部动作和身体关节动作合成合适的情感角色动作。通过对多个评估指标进行全面定量和定性实验证明，我们的方法具有低重建误差，能够为数字角色产生多样化的面部表情和身体动作。

Jun, 2024