Jun, 2023

从语音中学习地标运动以获取说话人不可知的 3D 语音生成

TL;DR本篇研究提出了一种新方法,通过音频输入生成 3D 说话人头部动画,并利用面部的传动部位上的控制点来描述语音相关的运动,并利用两个不同的模型来实现;该方法具有身份不相关性,可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点,例如一致性,可靠性和不需要手动注释。