BodyFormer:基于 Transformer 的语义引导的三维身体手势合成
利用 CNN 架构及 GAN 模型自动综合逼真的 3D 虚拟人物之肢体手势,面部表情和语音生成,同时创造出三维身体、手部和面部数据,并利用多模态的 3D 姿态估计技术和训练,实现更加自然流畅的合成动画。
Feb, 2021
本文提出了一种基于学习深度先验的新型 3D 手部形态综合和估计方法,其中利用了身体运动和手势之间的相关性,采用网络进行 3D 手部姿态估计训练并得到了优良的效果。
Jul, 2020
该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”,通过原始语音音频产生个体化和风格化的全身共说手势,消除了复杂的多模态处理和手动注释的需求,实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。
Aug, 2023
提出了一个全新的端到端生成模型,名为 Persona-Gestor,以原始语音音频为唯一输入生成高度个性化的 3D 全身手势,将模糊特征提取器和非自回归自适应层标准化 (AdaLN) 转换扩散结构相结合,并利用扩散模型进行训练和推断,通过在 Trinity、ZEGGS 和 BEAT 数据集上的广泛评估证实了其优越性能,提高了系统的可用性和泛化能力,拓宽了语音驱动手势合成的发展前景。
Mar, 2024
Semantic Gesticulator 是一个新颖的框架,旨在通过强有力的语义对应性合成伴随语音的逼真手势,通过大型语言模型的生成检索框架,有效地从动作库中检索合适的语义手势候选,以生成与语音节奏相匹配的高质量手势,通过语义对齐机制确保最终动画的自然性,证明了系统在生成节奏一致和语义明确的手势方面的稳健性。
May, 2024
EmotionGesture 是一种从音频生成真实共语手势的新型框架,其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征,并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示,然后再用转换器模型生成 3D 共语手势,并通过运动平滑性添加稳定性来提高性能,并能够通过情感条件 VAE 生成丰富多样的情感结果。
May, 2023
通过使用混合点表示,并结合对比运动学习方法,本研究提出了一种从语音中生成全身动作的模型,以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。
Nov, 2023
本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型,使用新的手势生成度量标准和主观人类评估表明,该模型优于现有的端到端生成模型。
Sep, 2020
本文提出了一种新框架,可以根据语音文本和语音音频表达生成关节角度序列,经过客观和主观评估,证明了该手势生成框架对机器人和具身代理的有效性。
Sep, 2023
使用 RGB 视频数据,我们提出了一种基于多模态学习的方法,可以同时合成数字角色的共语言面部表情和上半身动作。我们的方法从视频数据直接估计稀疏的面部关键点和上半身关节,并根据说话者的面部动作和身体关节动作合成合适的情感角色动作。通过对多个评估指标进行全面定量和定性实验证明,我们的方法具有低重建误差,能够为数字角色产生多样化的面部表情和身体动作。
Jun, 2024