探索转移学习用于低资源情感合成语音

Jan, 2019

探索转移学习用于低资源情感合成语音

Exploring Transfer Learning for Low Resource Emotional TTS

Noé Tits, Kevin El Haddad, Thierry Dutoit

TL;DR本文研究了如何通过微调预训练的基于深度学习的文字转语音模型来使用其他说话者的少量数据合成语音，并探讨了通过微调中性 TTS 模型以使用少量情感数据来适应模型以生成情感 TTS 的可能性。

Abstract

During the last few years, spoken language technologies have known a big improvement thanks to deep learning. However deep learning-based

spoken language technologies deep learning speech synthesis fine-tuning emotional tts

发现论文，激发创造

深度学习语音合成模型在少样本、低资源、定制数据集上的迁移学习比较分析

使用深度学习的文本到语音合成 (TTS) 依赖于声音质量。现代 TTS 模型具有很高的先进性，但需要大量的数据。本研究聚焦于迁移学习，特别是对于少样本、低资源、定制化数据集。该研究通过详尽的技术分析评估了 TTS 最新模型迁移学习的能力，并通过实验分析在约束数据集上比较模型的性能。初步假设表明，迁移学习可以显著改善紧凑数据集上的 TTS 模型的性能，并可能存在适用于这些特殊条件的最优模型。该研究预测随着数据稀缺性的增加，TTS 中的迁移学习会逐渐兴起。未来，定制 TTS 应用将更倾向于针对特定数据集进行优化的模型，而非通用的、数据密集型模型。

Oct, 2023

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

为少样本情感语音识别进行预微调

此研究旨在通过使用预先训练的模型来提高语音模型的泛化能力，将说话者自适应视为少样本学习问题，并将 Wav2Vec2.0 在每个多类情感语音识别语料库的四个排列上进行预先微调，并通过 33,600 个 few-shot 微调试验在情感语音数据集上评估模型。

Feb, 2023

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

基于参考模型的半监督学习在低资源 TTS 中的应用

本论文提出了一种半监督学习的神经语音合成方法，该方法专注于在标记目标数据量有限的情况下实现性能相对较好的 TTS，并能解决原来的自回归模型中出现的曝光偏差问题，实验结果表明，该方法能够在目标数据量有限的情况下，显著提高测试数据的语音合成自然度和鲁棒性。

Oct, 2022

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

利用跨领域语音情感识别协助，使用无标记情感数据集进行情感可控语音合成

本文提出了一种新颖的情感文本转语音合成方法，通过跨域语音情感识别模型和情感文本转语音模型进行联合训练，从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音，并且几乎不影响其语音质量。

Oct, 2020

使用不平衡的语音数据学习情感表示，用于语音情感识别和情感文本转语音

本研究提出情感抽取器解决了在语音情感识别和情感语音合成等任务中因数据集不平衡带来的问题，并采用数据增强方法训练模型以提取出通用有效的语音情感表征，为情感语音合成任务提供更具表现力的语音。

Jun, 2023

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018