Deep Voice 2: 多说话人神经文本转语音

NIPSMay, 2017

Deep Voice 2: 多说话人神经文本转语音

Deep Voice 2: Multi-Speaker Neural Text-to-Speech

Sercan Arik, Gregory Diamos, Andrew Gibiansky, John Miller, Kainan Peng...

TL;DR介绍了一种使用低维度可训练说话人嵌入的神经文本转语音技术，可以从单个模型生成不同的声音，并构建了具有高性能的构建组件：Deep Voice2 和后处理神经语音合成器的 Tacotron，通过两个多说话人 TTS 数据集演示了多说话人语音合成技术。

Abstract

We introduce a technique for augmenting neural text-to-speech (TTS) with lowdimensional trainable speaker embeddings to generate different voices from a single model. As a starting point, we show improvements over the two state-ofthe-art approaches for single-speaker →

neural tts speaker embeddings multi-speaker speech synthesis deep voice 2 tacotron

发现论文，激发创造

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

深度语音 3：使用卷积序列学习扩展语音合成

Deep Voice 3 是一种全卷积自注意神经文本转语音系统，可以很好地匹配目前最先进的神经语音合成系统的自然度，同时训练速度快于十倍。通过在超过 2000 位演讲者的超过 800 小时的音频数据上进行训练，实现了 TTS 数据集规模的前所未有的扩展。同时，我们描述了如何缩放指向注意的语音合成网络的推断，以在单个 GPU 服务器上每天缩放到 1000 万个查询，并比较了几种不同的波形综合方法。

Oct, 2017

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

MultiSpeech: 基于 Transformer 的多说话人文本转语音

本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统，通过几个特殊设计的组件 / 技术改善了文本到语音的对齐，并在多个数据集上展示了其效果。

Jun, 2020

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

使用 Transformer 神经网络进行语音合成

本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题，在效率和性能方面实现了 state-of-the-art 表现。

Sep, 2018

从预训练深度语言模型到端到端语音合成的迁移学习

本论文研究了通过引入 BERT 模型辅助训练 TTS 模型 Tacotron-2，以缓解高质量语音库的不足问题，并在模型训练中观察到模型收敛更快、结果中无杂音等优点。

Jun, 2019

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

基于说话人自适应的神经声码器的参数化语音合成系统

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018

基于语义标记预测的两阶段文本到语音的神经转换器

我们提出了一种以神经推导器为中心的新型文本转语音（TTS）框架，将整个 TTS 流程分为语义级序列到序列建模和细粒度声学建模阶段，并利用从 wav2vec2.0 嵌入中获取的离散语义标记。我们采用了一种名为令牌推导器的神经推导器，用于语义标记预测以实现稳健高效的对齐建模，从其固有的硬单调对齐约束中受益。接下来，一个非自回归（NAR）语音生成器从这些语义标记有效地合成波形。此外，参考语音在每个阶段控制时间动态和声学条件。这种解耦的框架降低了 TTS 的训练复杂性，同时使每个阶段能够专注于语义和声学建模。我们在零 - shot 自适应 TTS 上的实验证明，我们的模型在语音质量和说话人相似性方面超过了基准模型，无论是客观上还是主观上。我们还深入探讨了我们方法在推理速度和韵律控制能力方面的优势，突出了神经推导器在 TTS 框架中的潜力。

Jan, 2024