Seq2Seq 模型的深度语音合成系统

Mar, 2019

Deep Text-to-Speech System with Seq2Seq Model

Gary Wang

TL;DR本研究介绍对 Seq2seq 架构的修改，以提高神经网络基础的文本到语音 / 语音合成流程的训练速度和模型的性能，同时保证合成语音的音质。

Abstract

Recent trends in neural network based text-to-speech/speech synthesis pipelines have employed recurrent Seq2seq architectures that can syn

neural network text-to-speech speech synthesis seq2seq architecture attention alignment

发现论文，激发创造

基于深度卷积神经网络和引导式注意力的高效可训练文本转语音系统

该论文提出了一种基于深度卷积神经网络的新型文本转语音（TTS）技术，通过只使用 CNN 架构而无需循环单元，成功实现了 TTS，且相比当前的基于循环神经网络的技术更加经济高效，并且在普通电脑上只需训练 15 小时即可生成几乎合格的语音。

Oct, 2017

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

基于 Transformer 的序列到序列语音转换网络：利用文本到语音预训练

本文提出了一种基于 Transformer 架构和文本到语音预训练的新颖的序列到序列语音转换模型，通过预训练的方式，向转换模型传递语音相关的知识，实现数据高效训练，提高语音转换的清晰度、自然度和相似度。

Dec, 2019

Small-E：用线性注意力实现高效语音合成的小型语言模型

最近关于文本到语音合成（TTS）的研究表明，使用语言模型驱动的 TTS 展示了卓越的能力，能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器，并引入专门的交叉关注机制以减少重复和跳跃问题。结果，我们的架构能够在长音频样本上高效训练，并在相同规模的基准模型上实现最先进的零样本声音克隆。

Jun, 2024

使用 Transformer 神经网络进行语音合成

本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题，在效率和性能方面实现了 state-of-the-art 表现。

Sep, 2018

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016

EM-TTS：高效训练的低资源蒙古语轻量级文本到语音

基于深度卷积神经网络的轻量级文本转语音系统，通过 CNN-based 序列合成技术，使用数据增强方法减少训练时间，同时保证合成语音的质量和自然度。

Mar, 2024

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

基于 FullConv 的高效蒙古语语音合成系统训练

本文提出了一种基于深度卷积神经网络的语音合成系统，通过采用时间扭曲、频率掩蔽和时间掩蔽等一系列数据增强方法，提高了模型的泛化性和鲁棒性；最终实验结果表明，在确保合成语音质量的同时，仅使用 CNN 组件的 TTS 模型可以比 Tacotron 等传统模型缩短训练时间。

Oct, 2022

高质量流媒体语音合成低，句子长度无关的延迟

本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统，使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成，实验结果显示，该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟，并且能够生成几乎自然的高质量语音。

Nov, 2021