面向阿拉伯方言的零射 Text-To-Speech

Jun, 2024

面向阿拉伯方言的零射 Text-To-Speech

Towards Zero-Shot Text-To-Speech for Arabic Dialects

Khai Duy Doan, Abdul Waheed, Muhammad Abdul-Mageed

TL;DR构建了一个包含多个方言的阿拉伯语音合成模型并通过评估表明其潜力大。

Abstract

zero-shot multi-speaker text-to-speech (ZS-TTS) systems have advanced for English, however, it still lags behind due to insufficient resources. We address this gap for arabic, a language of more than 450 million

zero-shot multi-speaker text-to-speech arabic dialect identification models xtts model speech synthesis

发现论文，激发创造

XTTS：一种大规模多语言零射击文本转语音模型

提出了 XTTS 系统，是基于 Tortoise 模型的多语言训练方法，通过改进声纹克隆和加快训练和推理速度，实现了在 16 种语言中取得了最先进的结果。

Jun, 2024

YourTTS: 面向全体人员的零样本多说话人语音合成和零样本语音转换

该研究使用多语言方法进行零样本多说者语音合成，可在低资源语种上实现零样本语音转换，使用 VITS 模型，经过多项创新修改后，在 VCTK 数据集上实现了最先进的结果，并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。

Dec, 2021

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

ClArTTS: 一个开放源代码的古典阿拉伯语语音合成语料库

通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS)，我们填补了现有资源中阿拉伯语音语料库的空缺，以支持一些现代的端到端阿拉伯语音合成系统。

Feb, 2023

从文本学会说话：无监督文本预训练的零射多语言语音合成

使用零样本学习和多语言语言模型，该研究提出了一种只使用目标语言文本数据进行多语言语音合成（TTS）的方法，其能够成功地为只有文本资源的低资源语言开发 TTS 系统，大大拓展了 TTS 的覆盖范围并能取得高度理解度。

Jan, 2023

AdaSpeech 4: 零 - shot 场景下的自适应文本转语音

本文提出了一个高质量的语音合成系统 AdaSpeech 4，用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力，并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外，本文基于基向量的分布提出了一种新的监督损失，以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中，AdaSpeech 4 实现了比基线更好的语音质量和相似性，而无需进行任何微调。

Apr, 2022

ZET-Speech：基于扩散和基于风格的模型的零样本自适应情感可控语音合成

本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech，旨在实现对任何说话者情感语音的合成，采用了域对抗学习和扩散模型的引导方法，实验结果表明，ZET-Speech 成功地合成了所需情感的自然和情感语音，适用于已知和未知说话者。

May, 2023

元学习文本转语音在 7000 多种语言中的应用

通过大规模多语言预训练和元学习，我们构建了一个能够在超过 7000 种语言中生成语音的单一文本转语音合成系统，并通过客观评估和人工评价验证了该系统在多样化语言环境下的性能。通过公开发布我们的代码和模型，我们旨在为语言资源有限的社区提供支持，并在语音技术领域促进进一步的创新。

Jun, 2024

以阿拉伯广播新闻为案例研究的 TTS 无监督数据选择

本文探讨了一种针对低资源语言的完全无监督的 TTS 建模方法，旨在提高语音生成的效率并让其更接近自然人类语音。在案例研究中，该方法成功地使用了广播新闻作为语料集，通过自动数据选择和预训练 / 微调策略，提高了模型的性能。

Jan, 2023

基于 N-Shot 的 Whisper 在多样化阿拉伯语音识别中的基准测试

本研究对 Whisper 在多种阿拉伯口音（包括几种没见过的口音）上进行了综合评估，结果发现 Whisper 在零 - shot 设置下性能较好，但在五种未见过的方言上性能明显下降。

Jun, 2023