使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

ACLDec, 2023

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

Rapid Speaker Adaptation in Low Resource Text to Speech Systems using Synthetic Data and Transfer learning

Raviraj Joshi, Nikesh Garera

TL;DR使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Abstract

Text-to-speech (TTS) systems are being built using end-to-end deep learning approaches. However, these systems require huge amounts of training data. We present our approach to built production quality TTS and perform speaker adaptation in extremely →

text-to-speech systems end-to-end deep learning speaker adaptation low resource settings transfer learning

发现论文，激发创造

使用 Tacotron2、WaveGlow 和迁移学习的低资源端到端梵语 TTS

本文研究使用 fine-tuning 改进了英语预训练的 Tacotron2 模型，以有限的梵语数据在资源匮乏的环境下合成自然语音，并取得了令人鼓舞的结果。

Dec, 2022

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

低资源条件下的混合文字语音合成

我们提出了适用于电子商务应用的生产级代码混合印地语 - 英语 TTS 系统的方法。我们采用了一种以数据为导向的方法，通过利用各种语言的单语数据集。我们演示了在纯代码混合测试集上，这种单一脚本双语训练的效果很好。我们还通过 Tacotron2 + Waveglow 的设置对单说话人适应和多说话人训练进行了详尽的评估，结果显示前一种方法效果更好。我们还结合了迁移学习和仅解码器微调来提高性能。我们将这些方法与 Google TTS 进行了比较，使用我们提出的迁移学习方法获得了 CMOS 分数为 0.02。我们还进行了低资源语音适应实验，结果表明只需要 3 小时的数据就可以引入新语音。这凸显了我们预先训练模型在资源受限设置中的重要性。我们在大量的领域外纯代码混合句子上进行了主观评估，以展示系统的高质量。

Dec, 2023

深度学习语音合成模型在少样本、低资源、定制数据集上的迁移学习比较分析

使用深度学习的文本到语音合成 (TTS) 依赖于声音质量。现代 TTS 模型具有很高的先进性，但需要大量的数据。本研究聚焦于迁移学习，特别是对于少样本、低资源、定制化数据集。该研究通过详尽的技术分析评估了 TTS 最新模型迁移学习的能力，并通过实验分析在约束数据集上比较模型的性能。初步假设表明，迁移学习可以显著改善紧凑数据集上的 TTS 模型的性能，并可能存在适用于这些特殊条件的最优模型。该研究预测随着数据稀缺性的增加，TTS 中的迁移学习会逐渐兴起。未来，定制 TTS 应用将更倾向于针对特定数据集进行优化的模型，而非通用的、数据密集型模型。

Oct, 2023

面向下一个十亿用户构建文本转语音系统

本研究评估了科威特琴主义和印度Ａryan 语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此，我们确定了单语模型与 FastPitch 和 HiFi-GAN V1，联合训练男性和女性说话者表现最佳。在这个设置下，我们为 13 种语言训练和评估 TTS 模型，并发现我们的模型在所有语言中都明显优于现有模型。我们通过 Bhashini 平台开源所有模型。

Nov, 2022

从预训练深度语言模型到端到端语音合成的迁移学习

本论文研究了通过引入 BERT 模型辅助训练 TTS 模型 Tacotron-2，以缓解高质量语音库的不足问题，并在模型训练中观察到模型收敛更快、结果中无杂音等优点。

Jun, 2019

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

低资源语音识别的语音合成数据增强

本研究旨在提出一种新的数据增强方法来改善自动语音识别模型，该方法生成合成文本和合成音频，使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率（WER）达到 8.73％的改善。

Apr, 2022

探索转移学习用于低资源情感合成语音

本文研究了如何通过微调预训练的基于深度学习的文字转语音模型来使用其他说话者的少量数据合成语音，并探讨了通过微调中性 TTS 模型以使用少量情感数据来适应模型以生成情感 TTS 的可能性。

Jan, 2019

EM-TTS：高效训练的低资源蒙古语轻量级文本到语音

基于深度卷积神经网络的轻量级文本转语音系统，通过 CNN-based 序列合成技术，使用数据增强方法减少训练时间，同时保证合成语音的质量和自然度。

Mar, 2024