NaturalSpeech：端到端文本语音合成，质量达人类水平

May, 2022

NaturalSpeech：端到端文本语音合成，质量达人类水平

NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality

Xu Tan, Jiawei Chen, Haohe Liu, Jian Cong, Chen Zhang...

TL;DR本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

Abstract

Text to speech (TTS) has made rapid progress in both academia and industry in recent years. Some questions naturally arise that whether a TTS system can achieve human-level quality, how to define/judge that quality and how to achieve it. In this paper, we answer these questions by firs

text-to-speech human-level quality naturalspeech variational autoencoder ljspeech

发现论文，激发创造

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的 MQTTS 系统，其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的 TTS，通过基于 VAE/GMVAE-VITS 的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的 VITS。

Jun, 2022

基于深度学习的合成语音自然度评估

本文提出了一种新的客观预测合成语音自然度的模型，采用 CNN-LSTM 网络逐端训练，独立于语言，能用于评估文本转语音或语音转换系统的效果，通过在多个数据集上测试证明模型的可靠性。

Apr, 2021

高质量文本转语音数据集生成的自动化端到端开源软件

通过集成特定语言的音位分布、自动化录制过程、自动化和人机协同质量保证、以及记录的处理以符合指定格式，本文引入了一种端到端工具以生成文本到语音 (TTS) 模型的高质量数据集，以满足对高质量数据的重要需求，从而简化 TTS 模型的数据集创建过程，促进基于语音的技术的发展。

Feb, 2024

利用人类反馈提升零样本语音合成

在此研究中，我们提出了一种将主观人类评估整合到 TTS 训练过程中的新方法，名为不确定性感知优化（UNO），通过考虑主观人类语音感知和评估中的固有变异性来最大化语音生成的效用，实验证明 UNO 极大地提升了 TTS 模型在 MOS、词错误率和说话人相似性方面的零样本性能，同时还展示了 UNO 在情感 TTS 中无缝、灵活地适应所需说话风格的显著能力。

Jun, 2024

NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器

本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统，同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习，能够实现不同说话人以及多样化合成的语音转换。实验表明，在零样本情况下，与之前的 TTS 系统相比，本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高，并能通过只提供语音提示来实现新的零样本歌唱合成。

Apr, 2023

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020

儿童语音合成的文本到语音处理流程、评估方法和初步微调结果

本研究通过开发和验证训练管道，使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。

Mar, 2022