非自回归神经文本转语音

ICMLMay, 2019

Non-Autoregressive Neural Text-to-Speech

Kainan Peng, Wei Ping, Zhao Song, Kexin Zhao

TL;DR本文提出 ParaNet，一种非自回归 seq2seq 模型，用于将文本转换为频谱图，并通过各种平行神经音色器进行了测试，其中包括一种基于 VAE 的方法，用于从头开始训练反自回归流（IAF）平行音色器。

Abstract

In this work, we propose paranet, a non-autoregressive seq2seq model that converts text to spectrogram. It is fully convolutional and brin

paranet non-autoregressive seq2seq model text to spectrogram parallel neural vocoders inverse autoregressive flow

发现论文，激发创造

并行 Tacotron：非自回归且可控 TTS

本文提出了一种用于神经端到端文本到语音的非自回归神经网络模型 Parallel Tacotron，该模型采用变分自编码器来提高自然性，轻量级卷积来捕获局部上下文，并引入迭代光谱损失以进一步提高自然性，实验结果表明，Parallel Tacotron 与强的自回归基线模型相匹配，并在推理时间上显著提高了效率。

Oct, 2020

ClariNet: 端到端文本到语音平行波形生成

本文提出了一种新的并行波形生成的解决方案，使用自回归 WaveNet 通过最小化高峰输出分布之间的 KL 散度的正则化来辨别来自自回归 WaveNet 的高斯逆自回归流。此外，我们还介绍了一种全卷积的文本到波形神经架构，能够从头开始进行快速端到端培训，极大地优于以前的流程。

Jul, 2018

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

基于说话人自适应的神经声码器的参数化语音合成系统

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018

PortaSpeech: 便携式高质量生成式语音合成

提出了一种轻量级的生成式文本到语音（text-to-speech）模型 PortaSpeech，提高了合成语音的真实性和抗扰动性，并且在主观和客观的评估指标上表现最佳，其模型参数数目仅为 FastSpeech 2 的四分之一。

Sep, 2021

Wave-Tacotron: 基于端到端的文本到语音合成的光谱图自由方法

本研究描述了一种序列到序列的神经网络，可以直接将文本输入转化为语音波形，具备较快的语音生成速度，而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合，对输出波形进行建模，并能够处理长期依赖关系。实验证明，所提出的模型的语音生成质量接近最新的神经网络 TTS 系统，并具有明显的加速优势。

Nov, 2020

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

神经参数化唱歌合成器

利用基于 WaveNet 架构的新型合成模型，对参数声码器产生的特征进行建模，并使用混合密度输出，实现对每个帧的预测，避免了过度拟合，在预测错误的情况下进行自回归生成算法的正则化，成功将和声、非周期性和有声 / 无声组件预测在一起，比现有的参数化统计方法和拼接方法更为有效。

Apr, 2017

Paraformer：用于非自回归端到端语音识别的快速准确并行 Transformer

为了加速端到端语音识别中的推理，本文提出了一个名为 Paraformer 的快速且精确的并行 Transformer，其能够通过利用一种基于连续积分和火的预测器来预测令牌数量并生成隐藏变量，并使用瞥见语言模型（GLM）实现语义嵌入，最后设计了一种策略来生成负采样以进一步提高性能。在多项实验中，Paraformer 能够以超过 10 倍的加速在公共 AISHELL-1、AISHELL-2 基准和工业级 20,000 小时任务中实现与最先进的 AR Transformer 相当的性能。

Jun, 2022

FloWaveNet：用于原始音频的生成流

本文提出了 FloWaveNet，一种基于可逆流的生成模型，使用单阶段训练程序和单个最大似然损失函数，无需附加的辅助项，能实时高效地输出与先前两阶段并行模型相媲美的清晰音频

Nov, 2018