基于参考模型的半监督学习在低资源 TTS 中的应用

Oct, 2022

基于参考模型的半监督学习在低资源 TTS 中的应用

Semi-Supervised Learning Based on Reference Model for Low-resource TTS

Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao

TL;DR本论文提出了一种半监督学习的神经语音合成方法，该方法专注于在标记目标数据量有限的情况下实现性能相对较好的 TTS，并能解决原来的自回归模型中出现的曝光偏差问题，实验结果表明，该方法能够在目标数据量有限的情况下，显著提高测试数据的语音合成自然度和鲁棒性。

Abstract

Most previous neural text-to-speech (TTS) methods are mainly based on supervised learning methods, which means they depend on a large training dataset and hard to achieve comparable performance under low-resource conditions. To address this issue, we propose a →

neural text-to-speech semi-supervised learning fastspeech2 limited target data voice quality

发现论文，激发创造

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

深度学习语音合成模型在少样本、低资源、定制数据集上的迁移学习比较分析

使用深度学习的文本到语音合成 (TTS) 依赖于声音质量。现代 TTS 模型具有很高的先进性，但需要大量的数据。本研究聚焦于迁移学习，特别是对于少样本、低资源、定制化数据集。该研究通过详尽的技术分析评估了 TTS 最新模型迁移学习的能力，并通过实验分析在约束数据集上比较模型的性能。初步假设表明，迁移学习可以显著改善紧凑数据集上的 TTS 模型的性能，并可能存在适用于这些特殊条件的最优模型。该研究预测随着数据稀缺性的增加，TTS 中的迁移学习会逐渐兴起。未来，定制 TTS 应用将更倾向于针对特定数据集进行优化的模型，而非通用的、数据密集型模型。

Oct, 2023

探索转移学习用于低资源情感合成语音

本文研究了如何通过微调预训练的基于深度学习的文字转语音模型来使用其他说话者的少量数据合成语音，并探讨了通过微调中性 TTS 模型以使用少量情感数据来适应模型以生成情感 TTS 的可能性。

Jan, 2019

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

半监督训练以提高端到端语音合成的数据效率

本文提出了一种半监督的训练框架来提高 Tacotron 数据效率，通过利用大量的公开文本和语音语料库的文本和声学知识，该框架使 Tacotron 能够使用不到半小时的配对训练数据生成可理解的语音。

Aug, 2018

利用自监督表示的鹦鹉 TTS：文本转语音合成

提出一种名为 ParrotTTS 的文本转语音建模的替代方法，该方法基于自监督学习方法。ParrotTTS 采用两步方法，在无标签数据上训练语音到语音模型，然后使用文本到嵌入模型将其扩展到 TTS。该方法在自然度方面取得了有竞争力的平均意见分数，但在转录对和讲话者自适应方面明显优于传统 TTS 模型，并进一步为使用通用训练的自监督学习语音模型训练 TTS 模型铺平了道路。

Mar, 2023

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022