使用深度学习的文本到语音合成 (TTS) 依赖于声音质量。现代 TTS 模型具有很高的先进性,但需要大量的数据。本研究聚焦于迁移学习,特别是对于少样本、低资源、定制化数据集。该研究通过详尽的技术分析评估了 TTS 最新模型迁移学习的能力,并通过实验分析在约束数据集上比较模型的性能。初步假设表明,迁移学习可以显著改善紧凑数据集上的 TTS 模型的性能,并可能存在适用于这些特殊条件的最优模型。该研究预测随着数据稀缺性的增加,TTS 中的迁移学习会逐渐兴起。未来,定制 TTS 应用将更倾向于针对特定数据集进行优化的模型,而非通用的、数据密集型模型。
Oct, 2023
使用端到端深度学习方法构建的文本到语音系统,通过高资源语言数据和合成数据进行迁移学习,利用目标语言中的现有单语者文本到语音系统生成领域内合成数据,实现在低资源环境下训练高质量的单语者文本到语音系统,证明了双重预训练和仅解码器微调的重要性,并提出了一种低成本的自定义文本到语音模型训练解决方案。
Dec, 2023
此研究旨在通过使用预先训练的模型来提高语音模型的泛化能力,将说话者自适应视为少样本学习问题,并将 Wav2Vec2.0 在每个多类情感语音识别语料库的四个排列上进行预先微调,并通过 33,600 个 few-shot 微调试验在情感语音数据集上评估模型。
Feb, 2023
本文针对低资源语言语音合成任务,提出了从高资源语言中迁移知识的方法,并通过学习源与目标语言之间的语言符号映射,有效地构建了 TTS 系统,初步实验表明,只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。
Apr, 2019
本论文提出了一种半监督学习的神经语音合成方法,该方法专注于在标记目标数据量有限的情况下实现性能相对较好的 TTS,并能解决原来的自回归模型中出现的曝光偏差问题,实验结果表明,该方法能够在目标数据量有限的情况下,显著提高测试数据的语音合成自然度和鲁棒性。
Oct, 2022
本文提出了一种基于无监督预训练的神经文本朗读生成模型,通过学习 Warped Mel-Spectrogram 的重构来优化时序关系,进一步提高数据利用效率,在低资源语言情境下实现了显著的性能提升。
Mar, 2023
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。
本文提出了一种新颖的情感文本转语音合成方法,通过跨域语音情感识别模型和情感文本转语音模型进行联合训练,从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音,并且几乎不影响其语音质量。
Oct, 2020
本研究提出情感抽取器解决了在语音情感识别和情感语音合成等任务中因数据集不平衡带来的问题,并采用数据增强方法训练模型以提取出通用有效的语音情感表征,为情感语音合成任务提供更具表现力的语音。
Jun, 2023
采用元学习方法对自适应文本到语音合成进行研究,通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型,该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。
Sep, 2018