EM-TTS:高效训练的低资源蒙古语轻量级文本到语音
本文提出了一种基于深度卷积神经网络的语音合成系统,通过采用时间扭曲、频率掩蔽和时间掩蔽等一系列数据增强方法,提高了模型的泛化性和鲁棒性;最终实验结果表明,在确保合成语音质量的同时,仅使用 CNN 组件的 TTS 模型可以比 Tacotron 等传统模型缩短训练时间。
Oct, 2022
该论文提出了一种基于深度卷积神经网络的新型文本转语音(TTS)技术,通过只使用 CNN 架构而无需循环单元,成功实现了 TTS,且相比当前的基于循环神经网络的技术更加经济高效,并且在普通电脑上只需训练 15 小时即可生成几乎合格的语音。
Oct, 2017
使用端到端深度学习方法构建的文本到语音系统,通过高资源语言数据和合成数据进行迁移学习,利用目标语言中的现有单语者文本到语音系统生成领域内合成数据,实现在低资源环境下训练高质量的单语者文本到语音系统,证明了双重预训练和仅解码器微调的重要性,并提出了一种低成本的自定义文本到语音模型训练解决方案。
Dec, 2023
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019
本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题,在效率和性能方面实现了 state-of-the-art 表现。
Sep, 2018
这篇论文介绍了一个高质量的蒙古文开源文本到语音(TTS)综合数据集,这是第一个公开可用的数据集,为蒙古 TTS 应用在学术界和工业界的推广做出了贡献。该数据集共包括了约 8 小时的由 22 岁的专业女性蒙古语播音员朗读并进行转录的音频记录。论文中描述了数据集开发的过程、面临的挑战以及构建基于 FastSpeech2 模型和 HiFi-GAN 声码器非自回归基线系统的经验和评估结果,该系统在 MOS 评分上达到 4 以上且 RTF 约为 $3.30 imes10^{-1}$,可以实际应用。
Sep, 2022
本文提出了一种名为 EfficientSpeech 的神经文本转语音模型,它可以在资源受限且没有互联网访问的边缘设备上使用 ARM CPU 实时合成语音,并且相比现代紧凑型模型,参数和计算量仅为 1%,可实现平均 104.3 倍的实时因素,人类评估显示与 FastSpeech2 相比,音频质量仅略有下降。
May, 2023
我们提出了适用于电子商务应用的生产级代码混合印地语 - 英语 TTS 系统的方法。我们采用了一种以数据为导向的方法,通过利用各种语言的单语数据集。我们演示了在纯代码混合测试集上,这种单一脚本双语训练的效果很好。我们还通过 Tacotron2 + Waveglow 的设置对单说话人适应和多说话人训练进行了详尽的评估,结果显示前一种方法效果更好。我们还结合了迁移学习和仅解码器微调来提高性能。我们将这些方法与 Google TTS 进行了比较,使用我们提出的迁移学习方法获得了 CMOS 分数为 0.02。我们还进行了低资源语音适应实验,结果表明只需要 3 小时的数据就可以引入新语音。这凸显了我们预先训练模型在资源受限设置中的重要性。我们在大量的领域外纯代码混合句子上进行了主观评估,以展示系统的高质量。
Dec, 2023
本文介绍了一个名为 MnTTS2 的开源多说话者蒙古语文本转语音数据集,旨在为相关研究人员提供帮助。作者使用现代技术构建了这个 30 小时语音数据库,并开发了基于 FastSpeech2 模型的基线系统,实验结果表明该数据集可以用于构建真实世界的鲁棒多说话者 TTS 模型。
Dec, 2022