Jan, 2023

神经编解码语言模型是零样本文本到语音合成器

TL;DR本文介绍了一种基于语言模型的文本到语音合成方法,使用名为 Vall-E 的神经编解码器语言模型,通过在预训练阶段将 60K 小时的英语语音数据进行规模扩大,可以使用仅三秒的不同说话人的注册录音作为语音提示来合成高质量的个性化语音,并能够在保持发言人情感和声学环境的前提下,提高声音自然度和发言人相似度。