Apr, 2021

AdaSpeech 2: 自适应文本转语音技术在无文字数据上的应用

TL;DR本文提出了 AdaSpeech 2,这是一个自适应 TTS 系统,该系统仅利用未经转录的语音数据进行适应。通过引入 mel 频谱编码器进行语音重构,并将其输出序列约束为原始音素编码器的输出序列,然后仅微调 TTS 解码器。AdaSpeech 2 有两个优点:1)可插拔:我们的系统可以轻松应用于现有训练过的 TTS 模型而无需重新训练。2)有效:我们的系统以与经过转录的 TTS 适应相同数量的未经转录数据实现同等语音质量,并实现比以前的未经转录适应方法更好的语音质量。