Jan, 2025

基于预训练视听文本到语音模型的提示语音生成

TL;DR本研究解决了听障人士在表达口语时面临的挑战,提出了一种新的自动提示语音生成方法。通过利用预训练的视听自回归文本到语音模型(AVTacotron2),研究展示了如何从文本输入推断出提示语音的手势和唇形运动。实验结果显示,该方法在音素级的解码准确率达到了约77%,验证了其有效性。