EMNLPSep, 2021

fairseq S^2: 一种可扩展且可集成的语音合成工具包

TL;DR本文介绍了 fairseq S^2,它是为语音合成设计的 fairseq 扩展,具备多种自回归和非自回归文本到语音模型及其多说话人变体。此外,还构建了多种预处理工具,以便使训练语音合成模型所需的数据更易获取。这篇论文还展示了一套自动度量标准,以方便进行快速的开发和分析。fairseq S^2 不仅具有为此扩展添加的特点,还受益于 fairseq 提供的可扩展性,并可以轻松地与该框架中提供的其他最先进的系统集成。