May, 2020

Attentron: 利用基于注意力的可变长度嵌入的少样本文本转语音

TL;DR提出了一种名为 Attentron 的 few-shot TTS 模型,通过引入两个编码器解决了克隆隐藏说话人的问题并显著提高了生成音频的质量和说话人相似度。