Apr, 2022

AdaSpeech 4: 零 - shot 场景下的自适应文本转语音

TL;DR本文提出了一个高质量的语音合成系统 AdaSpeech 4,用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力,并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外,本文基于基向量的分布提出了一种新的监督损失,以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中,AdaSpeech 4 实现了比基线更好的语音质量和相似性,而无需进行任何微调。