基于参考模型的半监督学习在低资源 TTS 中的应用
本文提出了一种基于无监督预训练的神经文本朗读生成模型,通过学习 Warped Mel-Spectrogram 的重构来优化时序关系,进一步提高数据利用效率,在低资源语言情境下实现了显著的性能提升。
Mar, 2023
本文提出一种新颖的生成模型,它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督,我们能够强制它们具有一致和可解释的特征,这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性(例如情感和语速),即使只监督 1%(30 分钟)。在这样低的监督水平下,我们观察不到合成质量与最先进的基线水平相比的下降。
Oct, 2019
使用深度学习的文本到语音合成 (TTS) 依赖于声音质量。现代 TTS 模型具有很高的先进性,但需要大量的数据。本研究聚焦于迁移学习,特别是对于少样本、低资源、定制化数据集。该研究通过详尽的技术分析评估了 TTS 最新模型迁移学习的能力,并通过实验分析在约束数据集上比较模型的性能。初步假设表明,迁移学习可以显著改善紧凑数据集上的 TTS 模型的性能,并可能存在适用于这些特殊条件的最优模型。该研究预测随着数据稀缺性的增加,TTS 中的迁移学习会逐渐兴起。未来,定制 TTS 应用将更倾向于针对特定数据集进行优化的模型,而非通用的、数据密集型模型。
Oct, 2023
本文研究了如何通过微调预训练的基于深度学习的文字转语音模型来使用其他说话者的少量数据合成语音,并探讨了通过微调中性 TTS 模型以使用少量情感数据来适应模型以生成情感 TTS 的可能性。
Jan, 2019
使用端到端深度学习方法构建的文本到语音系统,通过高资源语言数据和合成数据进行迁移学习,利用目标语言中的现有单语者文本到语音系统生成领域内合成数据,实现在低资源环境下训练高质量的单语者文本到语音系统,证明了双重预训练和仅解码器微调的重要性,并提出了一种低成本的自定义文本到语音模型训练解决方案。
Dec, 2023
本文针对低资源语言语音合成任务,提出了从高资源语言中迁移知识的方法,并通过学习源与目标语言之间的语言符号映射,有效地构建了 TTS 系统,初步实验表明,只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。
Apr, 2019
本文提出了一种半监督的训练框架来提高 Tacotron 数据效率,通过利用大量的公开文本和语音语料库的文本和声学知识,该框架使 Tacotron 能够使用不到半小时的配对训练数据生成可理解的语音。
Aug, 2018
提出一种名为 ParrotTTS 的文本转语音建模的替代方法,该方法基于自监督学习方法。ParrotTTS 采用两步方法,在无标签数据上训练语音到语音模型,然后使用文本到嵌入模型将其扩展到 TTS。该方法在自然度方面取得了有竞争力的平均意见分数,但在转录对和讲话者自适应方面明显优于传统 TTS 模型,并进一步为使用通用训练的自监督学习语音模型训练 TTS 模型铺平了道路。
Mar, 2023
我们提出了一种基于扩散模型的最小监督高保真语音合成方法,其中所有模块均基于扩散模型构建,非自回归框架增强了可控性,持续时间扩散模型实现了多样化的韵律表达。
Sep, 2023
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。
Oct, 2022