面向阿拉伯方言的零射 Text-To-Speech
提出了 XTTS 系统,是基于 Tortoise 模型的多语言训练方法,通过改进声纹克隆和加快训练和推理速度,实现了在 16 种语言中取得了最先进的结果。
Jun, 2024
该研究使用多语言方法进行零样本多说者语音合成,可在低资源语种上实现零样本语音转换,使用 VITS 模型,经过多项创新修改后,在 VCTK 数据集上实现了最先进的结果,并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。
Dec, 2021
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。
Oct, 2022
通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS),我们填补了现有资源中阿拉伯语音语料库的空缺,以支持一些现代的端到端阿拉伯语音合成系统。
Feb, 2023
使用零样本学习和多语言语言模型,该研究提出了一种只使用目标语言文本数据进行多语言语音合成(TTS)的方法,其能够成功地为只有文本资源的低资源语言开发 TTS 系统,大大拓展了 TTS 的覆盖范围并能取得高度理解度。
Jan, 2023
本文提出了一个高质量的语音合成系统 AdaSpeech 4,用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力,并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外,本文基于基向量的分布提出了一种新的监督损失,以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中,AdaSpeech 4 实现了比基线更好的语音质量和相似性,而无需进行任何微调。
Apr, 2022
本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech,旨在实现对任何说话者情感语音的合成,采用了域对抗学习和扩散模型的引导方法,实验结果表明,ZET-Speech 成功地合成了所需情感的自然和情感语音,适用于已知和未知说话者。
May, 2023
通过大规模多语言预训练和元学习,我们构建了一个能够在超过 7000 种语言中生成语音的单一文本转语音合成系统,并通过客观评估和人工评价验证了该系统在多样化语言环境下的性能。通过公开发布我们的代码和模型,我们旨在为语言资源有限的社区提供支持,并在语音技术领域促进进一步的创新。
Jun, 2024
本文探讨了一种针对低资源语言的完全无监督的 TTS 建模方法,旨在提高语音生成的效率并让其更接近自然人类语音。在案例研究中,该方法成功地使用了广播新闻作为语料集,通过自动数据选择和预训练 / 微调策略,提高了模型的性能。
Jan, 2023
本研究对 Whisper 在多种阿拉伯口音(包括几种没见过的口音)上进行了综合评估,结果发现 Whisper 在零 - shot 设置下性能较好,但在五种未见过的方言上性能明显下降。
Jun, 2023