Jun, 2022

NatiQ:一个用于阿拉伯语的端到端文本转语音系统

TL;DR本研究提出了一个基于编码器 - 解码器架构与注意力机制的端到端阿拉伯语语音合成系统 NatiQ,使用 Tacotron-1、Tacotron-2、Transformer 等多种神经网络模型进行实验,并以自家语音数据集中的男性 “Hamza” 和女性 “Amina” 为语音样本进行训练,最终的系统表现优异,平均意见分数分别为 4.21 和 4.40。同时,基于单词和字符错误率以及实时响应时间的客观评价结果表明,端到端架构 ESPnet 的表现最佳。