利用语音克隆对印度语言进行规模化的 NVIDIA 多说话人多语音 TTS 系统

Jan, 2024

利用语音克隆对印度语言进行规模化的 NVIDIA 多说话人多语音 TTS 系统

Scaling NVIDIA's multi-speaker multi-lingual TTS systems with voice cloning to Indic Languages

Akshit Arora, Rohan Badlani, Sungwon Kim, Rafael Valle, Bryan Catanzaro

TL;DR本文介绍了 NVIDIA 为 2024 年 MMITS-VC 挑战赛开发的 TTS 模型。在 Track 1 和 Track 2 中，我们利用 RAD-MMM 进行少样本 TTS 并在目标说话者数据上额外训练 5 分钟。在 Track 3 中，我们利用 P-Flow 进行零样本 TTS，同时训练挑战数据集和外部数据集，并使用 HiFi-GAN 声码器进行所有提交。RAD-MMM 在 Track 1 和 Track 2 上表现具有竞争力，而 P-Flow 在 Track 3 上排名第一，得分为 4.4 的平均意见分数 (MOS) 和 3.62 的说话者相似度分数 (SMOS)。

Abstract

In this paper, we describe the tts models developed by NVIDIA for the mmits-vc (Multi-speaker, Multi-lingual Indic TTS with Voice Cloning) 2024 Challenge. In Tracks 1 and 2, we utilize →

tts models mmits-vc rad-mmm p-flow hifi-gan

发现论文，激发创造

一种基于 VITS2 的多说话人多语言语音克隆系统，用于 limmits2024 挑战

本文介绍了一个语音合成系统的开发，用于 LIMMITS'24 挑战赛，主要关注第二阶段。该系统的目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统，涵盖了七种印度语言和男女两性的发言人。该系统通过使用挑战数据进行训练，并针对目标发言人进行少样本语音克隆进行了微调。评估包括对所有七种语言进行单语和跨语言综合的主观测试，评估自然度和发言人相似性。我们的系统使用了 VITS2 架构，结合多语言 ID 和 BERT 模型来增强上下文语言理解。在第一阶段，不允许使用额外数据的情况下，我们的模型的发言人相似性得分为 4.02。而在允许使用额外数据的第二阶段，得分为 4.17。

Jun, 2024

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

面向下一个十亿用户构建文本转语音系统

本研究评估了科威特琴主义和印度Ａryan 语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此，我们确定了单语模型与 FastPitch 和 HiFi-GAN V1，联合训练男性和女性说话者表现最佳。在这个设置下，我们为 13 种语言训练和评估 TTS 模型，并发现我们的模型在所有语言中都明显优于现有模型。我们通过 Bhashini 平台开源所有模型。

Nov, 2022

学习外语流利口语：多语言语音合成和跨语言语音克隆

该论文基于 Tacotron 合成模型，采用多说话人、多语言合成的方式，在没有任何双语或平行示例的情况下，实现了跨语言的语音转移。通过使用音素输入表征，鼓励模型跨语言共享模型容量，并结合对抗损失项，鼓励模型将语音内容与说话人身份表示分离，可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。

Jul, 2019

多模态学习改进少样本语音克隆

这篇文章提出使用多模态学习来改进少样本语音克隆性能，并通过在 Tacotron2 上增加无监督语音表示模块来构建该系统，实验结果表明，该多模态学习方法可以极大地提高语音克隆性能。

Mar, 2022

一个模型，多种语言：元学习应用于多语言文本朗读

本文介绍一种多语言语音合成方法，该方法使用上下文参数生成的元学习概念，使用更少的训练数据和更多的语言产生自然音质的多语言语音；其模型使用 Tacotron 2 和完全卷积输入文本编码器，在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集，同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明，该模型跨语言信息共享效果良好，在 “代码切换” 语音合成中表现更自然、准确。

Aug, 2020

Deep Voice 2: 多说话人神经文本转语音

介绍了一种使用低维度可训练说话人嵌入的神经文本转语音技术，可以从单个模型生成不同的声音，并构建了具有高性能的构建组件：Deep Voice2 和后处理神经语音合成器的 Tacotron，通过两个多说话人 TTS 数据集演示了多说话人语音合成技术。

May, 2017

低资源条件下的混合文字语音合成

我们提出了适用于电子商务应用的生产级代码混合印地语 - 英语 TTS 系统的方法。我们采用了一种以数据为导向的方法，通过利用各种语言的单语数据集。我们演示了在纯代码混合测试集上，这种单一脚本双语训练的效果很好。我们还通过 Tacotron2 + Waveglow 的设置对单说话人适应和多说话人训练进行了详尽的评估，结果显示前一种方法效果更好。我们还结合了迁移学习和仅解码器微调来提高性能。我们将这些方法与 Google TTS 进行了比较，使用我们提出的迁移学习方法获得了 CMOS 分数为 0.02。我们还进行了低资源语音适应实验，结果表明只需要 3 小时的数据就可以引入新语音。这凸显了我们预先训练模型在资源受限设置中的重要性。我们在大量的领域外纯代码混合句子上进行了主观评估，以展示系统的高质量。

Dec, 2023

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023