使用多源 Tacotron 和 WaveNet 的文本转语音和声音转换联合训练框架

Mar, 2019

使用多源 Tacotron 和 WaveNet 的文本转语音和声音转换联合训练框架

Joint training framework for text-to-speech and voice conversion using multi-source Tacotron and WaveNet

Mingyang Zhang, Xin Wang, Fuming Fang, Haizhou Li, Junichi Yamagishi

TL;DR我们提出了一种使用 Tacotron 的扩展模型体系结构，将其作为文本到语音（TTS）任务和语音转换（VC）任务的共享模型进行训练。通过使用多源序列到序列模型作为共享模型，我们可以分别根据输入类型完成这两个不同的任务。使用预测的 mel-spectrogram 调制 WaveNet 生成波形信号，并建议联合训练一个支持多个源的目标说话人解码器的共享模型。听觉实验表明，我们提出的多源编码器 - 解码器模型可以有效地实现 TTS 和 VC 任务。

Abstract

We investigated the training of a shared model for both text-to-speech (TTS) and voice conversion (VC) tasks. We propose using an extended

shared model text-to-speech voice conversion tacotron multi-source

发现论文，激发创造

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

使用非平行训练数据从语音合成到语音转换的迁移学习

本文提出了一种基于 TTS-VC 转移学习的语音转换框架，采用多说话人语音合成系统和编码器 - 解码器架构等技术，实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。

Sep, 2020

UnifySpeech: 零样本文本转语音和语音转换的统一框架

该论文提出了 UnifySpeech 模型，它首次将文字转语音（TTS）和语音转换（VC）结合到一个框架中，通过矢量量化和域限制技术，加强了 TTS 的说话人建模能力和 VC 的语音内容解耦能力。

Jan, 2023

基于多任务学习的情感语音转换与语音合成

本文提出一种使用多任务学习的语音转换器，该转换器使用基于 seq2seq 的文本到语音作为嵌入空间，旨在提高保留语言信息的能力。在韩国男性情感文本 - 语音数据集上进行的实验表明，多任务学习有助于在语音转换中保留语言内容。

Nov, 2019

使用 Transformer 神经网络进行语音合成

本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题，在效率和性能方面实现了 state-of-the-art 表现。

Sep, 2018

Wave-Tacotron: 基于端到端的文本到语音合成的光谱图自由方法

本研究描述了一种序列到序列的神经网络，可以直接将文本输入转化为语音波形，具备较快的语音生成速度，而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合，对输出波形进行建模，并能够处理长期依赖关系。实验证明，所提出的模型的语音生成质量接近最新的神经网络 TTS 系统，并具有明显的加速优势。

Nov, 2020

基于 Transformer 的序列到序列语音转换网络：利用文本到语音预训练

本文提出了一种基于 Transformer 架构和文本到语音预训练的新颖的序列到序列语音转换模型，通过预训练的方式，向转换模型传递语音相关的知识，实现数据高效训练，提高语音转换的清晰度、自然度和相似度。

Dec, 2019

通过在 Mel 频谱预测上调节 WaveNet，进行自然语音合成

该论文阐述了 Tacotron 2 的神经网络框架，该框架可以从文本中直接合成语音，其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成，能够实现与专业录制的语音相当的平均意见分数 (MOS)。

Dec, 2017

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

一个模型，多种语言：元学习应用于多语言文本朗读

本文介绍一种多语言语音合成方法，该方法使用上下文参数生成的元学习概念，使用更少的训练数据和更多的语言产生自然音质的多语言语音；其模型使用 Tacotron 2 和完全卷积输入文本编码器，在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集，同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明，该模型跨语言信息共享效果良好，在 “代码切换” 语音合成中表现更自然、准确。

Aug, 2020