深度学习语音合成模型在少样本、低资源、定制数据集上的迁移学习比较分析

Oct, 2023

深度学习语音合成模型在少样本、低资源、定制数据集上的迁移学习比较分析

Comparative Analysis of Transfer Learning in Deep Learning Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset

PDF

Ze Liu

TL;DR使用深度学习的文本到语音合成 (TTS) 依赖于声音质量。现代 TTS 模型具有很高的先进性，但需要大量的数据。本研究聚焦于迁移学习，特别是对于少样本、低资源、定制化数据集。该研究通过详尽的技术分析评估了 TTS 最新模型迁移学习的能力，并通过实验分析在约束数据集上比较模型的性能。初步假设表明，迁移学习可以显著改善紧凑数据集上的 TTS 模型的性能，并可能存在适用于这些特殊条件的最优模型。该研究预测随着数据稀缺性的增加，TTS 中的迁移学习会逐渐兴起。未来，定制 TTS 应用将更倾向于针对特定数据集进行优化的模型，而非通用的、数据密集型模型。

Abstract

Text-to-Speech (TTS) synthesis using deep learning relies on voice quality. Modern tts models are advanced, but they need large amount of data. Given the growing computational complexity of these models and the s

text-to-speech synthesis deep learning transfer learning low-resource tts models

发现论文，激发创造

探索转移学习用于低资源情感合成语音

本文研究了如何通过微调预训练的基于深度学习的文字转语音模型来使用其他说话者的少量数据合成语音，并探讨了通过微调中性 TTS 模型以使用少量情感数据来适应模型以生成情感 TTS 的可能性。

Jan, 2019

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

基于参考模型的半监督学习在低资源 TTS 中的应用

本论文提出了一种半监督学习的神经语音合成方法，该方法专注于在标记目标数据量有限的情况下实现性能相对较好的 TTS，并能解决原来的自回归模型中出现的曝光偏差问题，实验结果表明，该方法能够在目标数据量有限的情况下，显著提高测试数据的语音合成自然度和鲁棒性。

Oct, 2022

从预训练深度语言模型到端到端语音合成的迁移学习

本论文研究了通过引入 BERT 模型辅助训练 TTS 模型 Tacotron-2，以缓解高质量语音库的不足问题，并在模型训练中观察到模型收敛更快、结果中无杂音等优点。

Jun, 2019

可轉移音素嵌入的少樣本跨語言語音合成

本文研究一种可转移的音位嵌入框架，旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下，作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征，实现了合成语音质量的有效改进。实验证明，使用 30 秒左右数据就能够合成出可理解的说话声音。

Jun, 2022

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

低资源条件下的混合文字语音合成

我们提出了适用于电子商务应用的生产级代码混合印地语 - 英语 TTS 系统的方法。我们采用了一种以数据为导向的方法，通过利用各种语言的单语数据集。我们演示了在纯代码混合测试集上，这种单一脚本双语训练的效果很好。我们还通过 Tacotron2 + Waveglow 的设置对单说话人适应和多说话人训练进行了详尽的评估，结果显示前一种方法效果更好。我们还结合了迁移学习和仅解码器微调来提高性能。我们将这些方法与 Google TTS 进行了比较，使用我们提出的迁移学习方法获得了 CMOS 分数为 0.02。我们还进行了低资源语音适应实验，结果表明只需要 3 小时的数据就可以引入新语音。这凸显了我们预先训练模型在资源受限设置中的重要性。我们在大量的领域外纯代码混合句子上进行了主观评估，以展示系统的高质量。

Dec, 2023

低资源语音识别的语音合成数据增强

本研究旨在提出一种新的数据增强方法来改善自动语音识别模型，该方法生成合成文本和合成音频，使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率（WER）达到 8.73％的改善。

Apr, 2022