Sep, 2022

MnTTS: 一种开源的蒙古文语音合成数据集及相关基准模型

TL;DR这篇论文介绍了一个高质量的蒙古文开源文本到语音(TTS)综合数据集,这是第一个公开可用的数据集,为蒙古 TTS 应用在学术界和工业界的推广做出了贡献。该数据集共包括了约 8 小时的由 22 岁的专业女性蒙古语播音员朗读并进行转录的音频记录。论文中描述了数据集开发的过程、面临的挑战以及构建基于 FastSpeech2 模型和 HiFi-GAN 声码器非自回归基线系统的经验和评估结果,该系统在 MOS 评分上达到 4 以上且 RTF 约为 $3.30 imes10^{-1}$,可以实际应用。