Mar, 2024

语音驱动个性化手势合成:利用自动模糊特征推断

TL;DR提出了一个全新的端到端生成模型,名为 Persona-Gestor,以原始语音音频为唯一输入生成高度个性化的 3D 全身手势,将模糊特征提取器和非自回归自适应层标准化 (AdaLN) 转换扩散结构相结合,并利用扩散模型进行训练和推断,通过在 Trinity、ZEGGS 和 BEAT 数据集上的广泛评估证实了其优越性能,提高了系统的可用性和泛化能力,拓宽了语音驱动手势合成的发展前景。