May, 2020
Attentron: 利用基于注意力的可变长度嵌入的少样本文本转语音
Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length Embedding
Seungwoo Choi, Seungju Han, Dongyoung Kim, Sungjoo Ha
TL;DR提出了一种名为 Attentron 的 few-shot TTS 模型,通过引入两个编码器解决了克隆隐藏说话人的问题并显著提高了生成音频的质量和说话人相似度。