Meta-TTS: 面向 Few-Shot 说话人自适应的元学习文本转语音

Nov, 2021

Meta-TTS: 面向 Few-Shot 说话人自适应的元学习文本转语音

Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech

Sung-Feng Huang, Chyi-Jiunn Lin, Da-Rong Liu, Yi-Chen Chen, Hung-yi Lee

TL;DR本文提出了一种使用元学习算法的多说话人文本转语音（Meta-TTS）模型，通过少量的适应步骤，可以生成具有高语音相似度的语音合成，并且比已有的说话人适应方法和说话人编码方法更为高效。

Abstract

Personalizing a speech synthesis system is a highly desired application, where the system can generate speech with the user's voice with rare enrolled recordings. There are two main approaches to build such a system in recent works: →

speech synthesis system speaker adaptation speaker encoding meta-tts multi-speaker tts model

发现论文，激发创造

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

一个模型，多种语言：元学习应用于多语言文本朗读

本文介绍一种多语言语音合成方法，该方法使用上下文参数生成的元学习概念，使用更少的训练数据和更多的语言产生自然音质的多语言语音；其模型使用 Tacotron 2 和完全卷积输入文本编码器，在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集，同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明，该模型跨语言信息共享效果良好，在 “代码切换” 语音合成中表现更自然、准确。

Aug, 2020

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

元音风格语音：多说话人适应性文本转语音生成

该研究提出了一种名为 StyleSpeech 的新型神经文本到语音合成模型，其中使用 Style-Adaptive Layer Normalization 以及 Meta-StyleSpeech 等技术，实现了在只有短时音频样本的情况下，能够高质量地合成符合目标人物语音风格的语音。实验结果显示，该模型能够显著地超越基准模型。

Jun, 2021

Few-Shot NMT 自适应元学习

META-MT 提供了一种新的基于元学习的方法来适应神经机器翻译系统 (NMT)，可以使 NMT 模型很容易地适应多个领域的目标，同时需要极少量的领域数据。通过在模拟的离线元训练领域适应任务的基础上学习如何适应新的未见过的领域，我们将 NMT 系统的适应性视为元学习问题。我们在十个领域上评估了提出的元学习策略并展示了在很少的领域样例可用时，META-MT 可以显著优于经典的领域适应并且可以在只见到 4,000 个已翻译的单词 (300 对平行句子) 后比经典微调的 BLEU 指标高出多达 2.5 个点。

Apr, 2020

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

带缩减的模块化元学习

提出了一种能够自动发现并学习任务特定和通用可重用模块的元学习方法，以实现针对低数据任务的长时间自适应模型，适用于少样本 TTS 等通常存在少量数据和长时间自适应问题的领域，并在实验证明其表现优于现有元学习方法，包括 MAML，iMAML 和 Reptile。

Sep, 2019

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024

可轉移音素嵌入的少樣本跨語言語音合成

本文研究一种可转移的音位嵌入框架，旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下，作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征，实现了合成语音质量的有效改进。实验证明，使用 30 秒左右数据就能够合成出可理解的说话声音。

Jun, 2022

元学习为端到端低资源语音识别

该论文介绍了一种基于元学习的低资源自动语音识别的方法，通过用多语言进行预训练并使用模型无关元学习算法（MAML）来快速适应目标语言，该方法名为 MetaASR，经过初步测试，发现该方法在各个目标语言中均显著优于现有的多任务预训练方法，而且开启了一种将元学习应用于更多语音相关应用的新研究方向。

Oct, 2019