Virtuoso: 巨量多语种语音 - 文本联合半监督学习用于文本转语音

Oct, 2022

Virtuoso: 巨量多语种语音 - 文本联合半监督学习用于文本转语音

Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech

Takaaki Saeki, Heiga Zen, Zhehuai Chen, Nobuyuki Morioka, Gary Wang...

TL;DRVirtuoso 是一种大规模多语种语音 - 文本联合半监督学习框架，用于文本到语音合成，并且能够在低资源语言中综合处理多种类型的语音和文本数据集，从而可以实现在看到的语言和未看到的语言中实现比基线模型更好的自然度和可懂性。

Abstract

This paper proposes virtuoso, a massively multilingual speech-text joint semi-supervised learning framework for text-to-speech synthesis (

virtuoso multilingual speech-text joint semi-supervised learning framework text-to-speech synthesis low-resource languages

发现论文，激发创造

Maestro-U: 利用联合语音 - 文本表示学习进行零监督语音 ASR

在这篇论文中，我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型，即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了 Maestro-U 的表现，它可以使错误率降低 68.5％，并将 19 种语言的 CER 降到 15％以下。

Oct, 2022

从文本学会说话：无监督文本预训练的零射多语言语音合成

使用零样本学习和多语言语言模型，该研究提出了一种只使用目标语言文本数据进行多语言语音合成（TTS）的方法，其能够成功地为只有文本资源的低资源语言开发 TTS 系统，大大拓展了 TTS 的覆盖范围并能取得高度理解度。

Jan, 2023

MAESTRO: 通过模态匹配匹配语音文本表示

Maestro 是一个自我监督的训练方法，以统一从语音和文本模态中学到的表示。该算法通过序列对齐，持续预测和匹配来学习统一的表示，以用于自动语音识别（ASR）和语音翻译（ST）等下游实验。

Apr, 2022

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

多任务学习和说话人分类器联合训练实现跨语言文本转语音

基于多语种转换器文本到语音模型，本文研究了一个多任务学习框架来提高跨语言的说话者相似度，并提出了与说话人分类器的联合训练来进一步提高说话者相似度。通过使用多任务学习和说话人分类器联合训练，该模型在主观和客观评估中，可以持续地提高训练集中已知和未知说话者的跨语言说话者相似度。

Jan, 2022

MParrotTTS: 低资源情境下的多语言多说话人文本转语音合成

我们提出了 MParrotTTS，它是一个统一的多语言、多说话者的文字转语音合成模型，能够生成高质量的语音。使用自我监督语音表示的模块化训练范式，MParrotTTS 能够以最少的监督数据适应新语言，并在训练自我监督骨干的同时，泛化到未见过的语言。此外，MParrotTTS 不需对任何双语或平行例子进行训练，即可跨语言转移语音并保留说话者的特点。在六种语言上，我们通过并行和跨语言合成的语音流畅度和说话者相似度方面的广泛结果，证明了所提出模型优于现有的最先进的多语言 TTS 模型和基线，只使用少量的受控训练数据。可以在此 https URL 找到我们模型的语音样本。

May, 2023

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

XTTS：一种大规模多语言零射击文本转语音模型

提出了 XTTS 系统，是基于 Tortoise 模型的多语言训练方法，通过改进声纹克隆和加快训练和推理速度，实现了在 16 种语言中取得了最先进的结果。

Jun, 2024

ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练

在跨语言场景中进行了语音表示学习的探索，提出了语音文本联合预训练框架，通过学习重构不同语言的输入来进行预训练，取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。

Nov, 2022