阿拉伯文语音合成(TTS)数据准备
通过集成特定语言的音位分布、自动化录制过程、自动化和人机协同质量保证、以及记录的处理以符合指定格式,本文引入了一种端到端工具以生成文本到语音 (TTS) 模型的高质量数据集,以满足对高质量数据的重要需求,从而简化 TTS 模型的数据集创建过程,促进基于语音的技术的发展。
Feb, 2024
通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS),我们填补了现有资源中阿拉伯语音语料库的空缺,以支持一些现代的端到端阿拉伯语音合成系统。
Feb, 2023
本文探讨了一种针对低资源语言的完全无监督的 TTS 建模方法,旨在提高语音生成的效率并让其更接近自然人类语音。在案例研究中,该方法成功地使用了广播新闻作为语料集,通过自动数据选择和预训练 / 微调策略,提高了模型的性能。
Jan, 2023
本研究聚焦于低资源非洲语言语音合成,着重于从语料库创作到 TTS 系统的共享和部署,通过参与式方法建立新的数据集和数据挖掘,发现即使在次优环境下录制 25 分钟的语音也能生成可听懂的语音,并为 12 种非洲语言提供了语音数据、代码和训练好的语音以支持研究人员和开发者。
Jul, 2022
本文提出了一种基于 TTS 的数据增强方法,用于改进非自回归 TTS 系统的质量,实验表明该方法显著提高了非自回归 TTS 系统的质量。
Oct, 2020
本文介绍了单人发音数据集 ArmanTTS,通过对比各种普遍数据集的特征,证明了 ArmanTTS 是教授波斯文本到语音转换模型所必需的标准。我们结合 Tacotron 2 和 HiFi GAN 设计了一个模型,可以接收音素作为输入,输出是相应的语音合成,并获得了 MOS 评分分别为实际语音的值为 4.0、音频编解码器预测的值为 3.87 和 TTS 模型生成的合成语音的值为 2.98。
Apr, 2023
本文提出了一种方法,通过训练神经网络来选择合适的合成语音样本,使其作为自动语音识别模型的辅助训练数据,这在训练中包括有实际的标注数据和合成的数据。在实验中,我们发现将与真实语音具有较大差异性的合成样本(由于词汇差异等原因)纳入到训练中对于提高语音识别性能至关重要,同时,我们的方法可以显著减小文本 — 语音转换(TTS)数据的大小。
May, 2023
本文针对低资源语言语音合成任务,提出了从高资源语言中迁移知识的方法,并通过学习源与目标语言之间的语言符号映射,有效地构建了 TTS 系统,初步实验表明,只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。
Apr, 2019