CML-TTS 低资源语言语音合成的多语言数据集
本文介绍了 Multilingual LibriSpeech(MLS)数据集,这是一个大型的多语言语音研究语料库,包括 8 种语言,以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供,我们相信它将为 ASR 和 TTS 研究开辟新的途径。
Dec, 2020
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。
Oct, 2022
这篇论文介绍了一个高质量的蒙古文开源文本到语音(TTS)综合数据集,这是第一个公开可用的数据集,为蒙古 TTS 应用在学术界和工业界的推广做出了贡献。该数据集共包括了约 8 小时的由 22 岁的专业女性蒙古语播音员朗读并进行转录的音频记录。论文中描述了数据集开发的过程、面临的挑战以及构建基于 FastSpeech2 模型和 HiFi-GAN 声码器非自回归基线系统的经验和评估结果,该系统在 MOS 评分上达到 4 以上且 RTF 约为 $3.30 imes10^{-1}$,可以实际应用。
Sep, 2022
本文针对低资源语言语音合成任务,提出了从高资源语言中迁移知识的方法,并通过学习源与目标语言之间的语言符号映射,有效地构建了 TTS 系统,初步实验表明,只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。
Apr, 2019
我们提出了 MParrotTTS,它是一个统一的多语言、多说话者的文字转语音合成模型,能够生成高质量的语音。使用自我监督语音表示的模块化训练范式,MParrotTTS 能够以最少的监督数据适应新语言,并在训练自我监督骨干的同时,泛化到未见过的语言。此外,MParrotTTS 不需对任何双语或平行例子进行训练,即可跨语言转移语音并保留说话者的特点。在六种语言上,我们通过并行和跨语言合成的语音流畅度和说话者相似度方面的广泛结果,证明了所提出模型优于现有的最先进的多语言 TTS 模型和基线, 只使用少量的受控训练数据。可以在此 https URL 找到我们模型的语音样本。
May, 2023
本文介绍了一个名为 MnTTS2 的开源多说话者蒙古语文本转语音数据集,旨在为相关研究人员提供帮助。作者使用现代技术构建了这个 30 小时语音数据库,并开发了基于 FastSpeech2 模型的基线系统,实验结果表明该数据集可以用于构建真实世界的鲁棒多说话者 TTS 模型。
Dec, 2022
我们提出了适用于电子商务应用的生产级代码混合印地语 - 英语 TTS 系统的方法。我们采用了一种以数据为导向的方法,通过利用各种语言的单语数据集。我们演示了在纯代码混合测试集上,这种单一脚本双语训练的效果很好。我们还通过 Tacotron2 + Waveglow 的设置对单说话人适应和多说话人训练进行了详尽的评估,结果显示前一种方法效果更好。我们还结合了迁移学习和仅解码器微调来提高性能。我们将这些方法与 Google TTS 进行了比较,使用我们提出的迁移学习方法获得了 CMOS 分数为 0.02。我们还进行了低资源语音适应实验,结果表明只需要 3 小时的数据就可以引入新语音。这凸显了我们预先训练模型在资源受限设置中的重要性。我们在大量的领域外纯代码混合句子上进行了主观评估,以展示系统的高质量。
Dec, 2023
提出 MaSS 数据集,基于世界各地包含该圣经的语言录制了 8,130 个平行口语表达,通过样本质量的人工评估,证明了该数据集对构建自然语言处理系统(尤其是多语言间的语音转写和翻译任务)的有效性。
Jul, 2019
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
通过大规模多语言预训练和元学习,我们构建了一个能够在超过 7000 种语言中生成语音的单一文本转语音合成系统,并通过客观评估和人工评价验证了该系统在多样化语言环境下的性能。通过公开发布我们的代码和模型,我们旨在为语言资源有限的社区提供支持,并在语音技术领域促进进一步的创新。
Jun, 2024