高效自适应文本转语音

ICLRSep, 2018

Sample Efficient Adaptive Text-to-Speech

Yutian Chen, Yannis Assael, Brendan Shillingford, David Budden, Scott Reed...

TL;DR采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Abstract

We present a meta-learning approach for adaptive text-to-speech (TTS) with few data. During training, we learn a multi-speaker model using a shared conditional WaveNet core and independent learned embeddings for each speaker. The aim of training is not to produce a →

meta-learning adaptive tts few-shot learning speaker embedding neural network

发现论文，激发创造

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

基于说话人自适应的神经声码器的参数化语音合成系统

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018

Meta-TTS: 面向 Few-Shot 说话人自适应的元学习文本转语音

本文提出了一种使用元学习算法的多说话人文本转语音（Meta-TTS）模型，通过少量的适应步骤，可以生成具有高语音相似度的语音合成，并且比已有的说话人适应方法和说话人编码方法更为高效。

Nov, 2021

基于短暂无转录样本的新说话人匹配

我们提出了一种基于学习的文本转语音系统，通过使用嵌入空间内的网络来从短的未转录音频样本中捕获新说话者，实现了语音合成系统的极大性能提升，且适用于新的声音，即使从非常短的样本中拟合。

Feb, 2018

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

Deep Voice 2: 多说话人神经文本转语音

介绍了一种使用低维度可训练说话人嵌入的神经文本转语音技术，可以从单个模型生成不同的声音，并构建了具有高性能的构建组件：Deep Voice2 和后处理神经语音合成器的 Tacotron，通过两个多说话人 TTS 数据集演示了多说话人语音合成技术。

May, 2017

一个模型，多种语言：元学习应用于多语言文本朗读

本文介绍一种多语言语音合成方法，该方法使用上下文参数生成的元学习概念，使用更少的训练数据和更多的语言产生自然音质的多语言语音；其模型使用 Tacotron 2 和完全卷积输入文本编码器，在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集，同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明，该模型跨语言信息共享效果良好，在 “代码切换” 语音合成中表现更自然、准确。

Aug, 2020

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

可轉移音素嵌入的少樣本跨語言語音合成

本文研究一种可转移的音位嵌入框架，旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下，作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征，实现了合成语音质量的有效改进。实验证明，使用 30 秒左右数据就能够合成出可理解的说话声音。

Jun, 2022

用于少样本文本转语音说话人自适应的剩余适配器

本研究提出了一种参数高效的少样本说话人自适应方法，通过使用可训练轻量级模块 (residual adapters) 来增加骨干模型 (backbone model) 实现对各种目标说话人的共享，可以在保持语音自然性和说话人相似性的同时仅使用上亿模型参数的 0.1％。

Oct, 2022