神经语音合成调查

Jun, 2021

A Survey on Neural Speech Synthesis

Xu Tan, Tao Qin, Frank Soong, Tie-Yan Liu

TL;DR本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Abstract

text to speech (TTS), or speech synthesis, which aims to synthesize intelligible and natural speech given text, is a hot research topic in speech, language, and machine learning communities and has broad applications in the industry. As the development of deep learning and artificial i

text to speech neural tts acoustic models vocoders expressive tts

发现论文，激发创造

基于评审的不同文字转语音技术研究

这篇研究论文以综述为基础，对各种文字转语音（TTS）技术进行了全面研究。研究比较了诸如串联 TTS、共振合成 TTS 和统计参数 TTS 等不同的 TTS 技术在语音自然度、系统复杂程度和适用性等方面的优势和局限性，并探索了神经 TTS 和混合 TTS 等最新进展。该研究的结果对于希望了解不同 TTS 技术及其适用性的研究人员、开发人员和用户具有重要价值。

Dec, 2023

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

神经文本转口头表达：深度文本到视听说话合成实现听觉与逼真图像

在这篇论文中，我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART，它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失，该模型能够生成人类般发音和音视频同步的逼真说话人脸视频，实验证明其在客观指标和人类评估方面达到了最先进的生成质量。

Dec, 2023

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

基于深度卷积神经网络和引导式注意力的高效可训练文本转语音系统

该论文提出了一种基于深度卷积神经网络的新型文本转语音（TTS）技术，通过只使用 CNN 架构而无需循环单元，成功实现了 TTS，且相比当前的基于循环神经网络的技术更加经济高效，并且在普通电脑上只需训练 15 小时即可生成几乎合格的语音。

Oct, 2017

Deep Voice 2: 多说话人神经文本转语音

介绍了一种使用低维度可训练说话人嵌入的神经文本转语音技术，可以从单个模型生成不同的声音，并构建了具有高性能的构建组件：Deep Voice2 和后处理神经语音合成器的 Tacotron，通过两个多说话人 TTS 数据集演示了多说话人语音合成技术。

May, 2017