Oct, 2022

基于 FullConv 的高效蒙古语语音合成系统训练

TL;DR本文提出了一种基于深度卷积神经网络的语音合成系统,通过采用时间扭曲、频率掩蔽和时间掩蔽等一系列数据增强方法,提高了模型的泛化性和鲁棒性;最终实验结果表明,在确保合成语音质量的同时,仅使用 CNN 组件的 TTS 模型可以比 Tacotron 等传统模型缩短训练时间。