Sep, 2023

面向风格的语音:面至声自然零样本语音合成中面部图像的改进潜在映射

TL;DR通过面部图像生成声音对于开发能够使用其独特声音进行互动的虚拟人类非常重要,本文介绍了一种基于面部图像而非参考语音生成自然语音的零样本文本到语音合成模型(Face-StyleSpeech),通过结合面部编码器和韵律编码器从面部图像中分别捕捉说话者身份和韵律特征来应对这一挑战,并通过实验结果证明该模型在生成面部图像对应的自然语音方面胜过基准模型,甚至对未训练过的面部图像也有效。