May, 2019

几乎无监督的文本转语音和自动语音识别

TL;DR本文提出了一种基于 Transformer 模型的几乎无监督学习方法,结合 TTS 和 ASR 的双重特性,通过少量的配对数据和额外的未配对数据,实现了对语音和文本领域的语言建模,并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现,以及 11.7% 的 ASR 错误率。