Aug, 2023

音频全能化:使用 WavLM 预训练模型的语音驱动手势合成

TL;DR该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”,通过原始语音音频产生个体化和风格化的全身共说手势,消除了复杂的多模态处理和手动注释的需求,实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。