语音驱动个性化手势合成：利用自动模糊特征推断

Mar, 2024

语音驱动个性化手势合成：利用自动模糊特征推断

Speech-driven Personalized Gesture Synthetics: Harnessing Automatic Fuzzy Feature Inference

Fan Zhang, Zhaohan Wang, Xin Lyu, Siyuan Zhao, Mengjian Li...

TL;DR提出了一个全新的端到端生成模型，名为 Persona-Gestor，以原始语音音频为唯一输入生成高度个性化的 3D 全身手势，将模糊特征提取器和非自回归自适应层标准化 (AdaLN) 转换扩散结构相结合，并利用扩散模型进行训练和推断，通过在 Trinity、ZEGGS 和 BEAT 数据集上的广泛评估证实了其优越性能，提高了系统的可用性和泛化能力，拓宽了语音驱动手势合成的发展前景。

Abstract

speech-driven gesture generation is an emerging field within virtual human creation. However, a significant challenge lies in accurately determining and processing the multitude of input features (such as acoustic, semantic, emotional, personality, and even subtle unknown features). Tr

speech-driven gesture generation end-to-end generative model fuzzy feature extractor adaln transformer speech-driven gesture synthesis

发现论文，激发创造

音频全能化：使用 WavLM 预训练模型的语音驱动手势合成

该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”，通过原始语音音频产生个体化和风格化的全身共说手势，消除了复杂的多模态处理和手动注释的需求，实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。

Aug, 2023

BodyFormer：基于 Transformer 的语义引导的三维身体手势合成

提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架，通过学习语音和三维手势之间的映射，使用概率分布生成多样化的手势，并通过预训练方案解决数据稀缺性问题，结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。

Sep, 2023

从文本、音频、说话者身份的三模态上下文生成言语手势

本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型，使用新的手势生成度量标准和主观人类评估表明，该模型优于现有的端到端生成模型。

Sep, 2020

从视频中学习基于语音的 3D 对话手势

利用 CNN 架构及 GAN 模型自动综合逼真的 3D 虚拟人物之肢体手势，面部表情和语音生成，同时创造出三维身体、手部和面部数据，并利用多模态的 3D 姿态估计技术和训练，实现更加自然流畅的合成动画。

Feb, 2021

基于语音的手势生成输入输出特征分析

本文提出了一种新的自动化语音驱动姿势生成框架，适用于人 - 代理交互，包括虚拟代理和机器人，并首次将表示学习应用于语音驱动姿势生成。

Mar, 2019

语义手势生成器：语义感知的共语手势合成

Semantic Gesticulator 是一个新颖的框架，旨在通过强有力的语义对应性合成伴随语音的逼真手势，通过大型语言模型的生成检索框架，有效地从动作库中检索合适的语义手势候选，以生成与语音节奏相匹配的高质量手势，通过语义对齐机制确保最终动画的自然性，证明了系统在生成节奏一致和语义明确的手势方面的稳健性。

May, 2024

Gesticulator: 一个语义感知的语音驱动手势生成框架

本文介绍了一种基于深度学习的模型，该模型将语音的声学和语义表示作为输入，生成关节角度旋转序列作为输出，可以产生任意节拍和语义手势。

Jan, 2020

情感手势：协同语音的多样情感共述三维手势生成

EmotionGesture 是一种从音频生成真实共语手势的新型框架，其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征，并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示，然后再用转换器模型生成 3D 共语手势，并通过运动平滑性添加稳定性来提高性能，并能够通过情感条件 VAE 生成丰富多样的情感结果。

May, 2023

语音手势生成对话生成对话生成对话生成：机器人和具身化代理的手势生成

本文提出了一种新框架，可以根据语音文本和语音音频表达生成关节角度序列，经过客观和主观评估，证明了该手势生成框架对机器人和具身代理的有效性。

Sep, 2023

Speech2AffectiveGestures: 利用生成对抗情感表达学习合成共语手势

本文介绍了一种基于生成对抗网络的 3D 姿势序列综合方法，通过合适的情感表达来综合共语上半身手势姿势。

Jul, 2021