MParrotTTS: 低资源情境下的多语言多说话人文本转语音合成

May, 2023

MParrotTTS: 低资源情境下的多语言多说话人文本转语音合成

MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low Resource Setting

Neil Shah, Vishal Tambrahalli, Saiteja Kosgi, Niranjan Pedanekar, Vineet Gandhi

TL;DR我们提出了 MParrotTTS，它是一个统一的多语言、多说话者的文字转语音合成模型，能够生成高质量的语音。使用自我监督语音表示的模块化训练范式，MParrotTTS 能够以最少的监督数据适应新语言，并在训练自我监督骨干的同时，泛化到未见过的语言。此外，MParrotTTS 不需对任何双语或平行例子进行训练，即可跨语言转移语音并保留说话者的特点。在六种语言上，我们通过并行和跨语言合成的语音流畅度和说话者相似度方面的广泛结果，证明了所提出模型优于现有的最先进的多语言 TTS 模型和基线，只使用少量的受控训练数据。可以在此 https URL 找到我们模型的语音样本。

Abstract

We present MParrotTTS, a unified multilingual, multi-speaker text-to-speech (TTS) synthesis model that can produce high-quality speech. Benefiting from a →

multilingual text-to-speech self-supervised modularized training cross-lingual synthesis

发现论文，激发创造

利用自监督表示的鹦鹉 TTS：文本转语音合成

提出一种名为 ParrotTTS 的文本转语音建模的替代方法，该方法基于自监督学习方法。ParrotTTS 采用两步方法，在无标签数据上训练语音到语音模型，然后使用文本到嵌入模型将其扩展到 TTS。该方法在自然度方面取得了有竞争力的平均意见分数，但在转录对和讲话者自适应方面明显优于传统 TTS 模型，并进一步为使用通用训练的自监督学习语音模型训练 TTS 模型铺平了道路。

Mar, 2023

学习外语流利口语：多语言语音合成和跨语言语音克隆

该论文基于 Tacotron 合成模型，采用多说话人、多语言合成的方式，在没有任何双语或平行示例的情况下，实现了跨语言的语音转移。通过使用音素输入表征，鼓励模型跨语言共享模型容量，并结合对抗损失项，鼓励模型将语音内容与说话人身份表示分离，可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。

Jul, 2019

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

XTTS：一种大规模多语言零射击文本转语音模型

提出了 XTTS 系统，是基于 Tortoise 模型的多语言训练方法，通过改进声纹克隆和加快训练和推理速度，实现了在 16 种语言中取得了最先进的结果。

Jun, 2024

鹦鹉：多语言视觉指令调整

Parrot 是一种新方法，利用文本指导在语言级别驱动视觉令牌对齐，以增强多语言大型语言模型的多模态能力，并提供了一个大规模多语言多模态基准测试数据集（MMMB）。

Jun, 2024

从文本学会说话：无监督文本预训练的零射多语言语音合成

使用零样本学习和多语言语言模型，该研究提出了一种只使用目标语言文本数据进行多语言语音合成（TTS）的方法，其能够成功地为只有文本资源的低资源语言开发 TTS 系统，大大拓展了 TTS 的覆盖范围并能取得高度理解度。

Jan, 2023

一个模型，多种语言：元学习应用于多语言文本朗读

本文介绍一种多语言语音合成方法，该方法使用上下文参数生成的元学习概念，使用更少的训练数据和更多的语言产生自然音质的多语言语音；其模型使用 Tacotron 2 和完全卷积输入文本编码器，在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集，同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明，该模型跨语言信息共享效果良好，在 “代码切换” 语音合成中表现更自然、准确。

Aug, 2020

元学习文本转语音在 7000 多种语言中的应用

通过大规模多语言预训练和元学习，我们构建了一个能够在超过 7000 种语言中生成语音的单一文本转语音合成系统，并通过客观评估和人工评价验证了该系统在多样化语言环境下的性能。通过公开发布我们的代码和模型，我们旨在为语言资源有限的社区提供支持，并在语音技术领域促进进一步的创新。

Jun, 2024

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

CML-TTS 低资源语言语音合成的多语言数据集

本文介绍了 CML-TTS，这是一个新的文本到语音（TTS）数据集，它在多语言方面提供了新的研究可能性。

Jun, 2023