WaveGrad 2: 文本到语音合成的迭代改进

Jun, 2021

WaveGrad 2: 文本到语音合成的迭代改进

WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis

PDF

Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi...

TL;DR本论文介绍了 WaveGrad 2，这是一种非自回归的生成模型，用于语音合成。通过迭代细化过程，模型使用梯度估计语音波形的对数条件密度，从而生成音频波形。实验证明，该模型可以生成高保真音频。

Abstract

This paper introduces wavegrad 2, a non-autoregressive generative model for text-to-speech synthesis. →

wavegrad 2 text-to-speech synthesis generative model gradient estimation iterative refinement

发现论文，激发创造

WaveGrad：用于波形生成的梯度估计

WaveGrad 是一种基于分数匹配和扩散概率模型生成波形的条件模型，它使用梅尔频谱来限制采样过程，并可通过调整迭代次数来平衡生成质量和速度。实验结果表明 WaveGrad 能够生成高保真度的音频样本，超越对抗样本和自回归模型，并通过少量的循环操作匹配了强度的似然自回归模型。

Sep, 2020

Grad-TTS: 一种文本转语音的扩散概率模型

Grad-TTS 是一款使用基于得分的解码器的文本转语音模型，使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换，从而实现噪声到语音的重建，并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。

May, 2021

Wave-Tacotron: 基于端到端的文本到语音合成的光谱图自由方法

本研究描述了一种序列到序列的神经网络，可以直接将文本输入转化为语音波形，具备较快的语音生成速度，而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合，对输出波形进行建模，并能够处理长期依赖关系。实验证明，所提出的模型的语音生成质量接近最新的神经网络 TTS 系统，并具有明显的加速优势。

Nov, 2020

GLA-Grad：一种 Griffin-Lim 扩展的波形生成扩散模型

我们提出了一种称为 GLA-Grad 的新方案，该方案在正常扩散过程的每个步骤中引入了相位恢复算法，以最小化条件错误并提高噪声扩散过程的效率，尤其在为先前未见过的目标演讲者生成语音时，我们的算法优于最先进的扩散模型。

Feb, 2024

ClariNet: 端到端文本到语音平行波形生成

本文提出了一种新的并行波形生成的解决方案，使用自回归 WaveNet 通过最小化高峰输出分布之间的 KL 散度的正则化来辨别来自自回归 WaveNet 的高斯逆自回归流。此外，我们还介绍了一种全卷积的文本到波形神经架构，能够从头开始进行快速端到端培训，极大地优于以前的流程。

Jul, 2018

InferGrad：在训练中考虑推理以提高语音生成器（Vocoder）中的扩散模型

InferGrad 是一种基于扩散模型的音码器，其将推断过程融入了训练过程中以减少推断迭代次数，从而提高合成语音的质量，实验表明 InferGrad 在相同条件下比波形梯度（WaveGrad）获得更好的语音质量，并且在保持相同语音质量的同时加速了 3 倍（InferGrad 的 2 次迭代速度比 WaveGrad 的 6 次迭代更快）

Feb, 2022

FreGrad：轻量级高速频率感知扩散语音合成器

本文旨在使用一种轻量级和快速的扩散基声码器（FreGrad）生成逼真的音频。通过离散小波变换将复杂波形分解为子带小波，以帮助 FreGrad 在简单的特征空间上进行操作；设计了一种频率感知膨胀卷积，提高频率感知性，产生具有准确频率信息的语音；引入了一些技巧，提升了所提模型的生成质量。在实验中，FreGrad 相比基线模型训练时间缩短了 3.7 倍，推理速度提高了 2.2 倍，同时模型尺寸减小了 0.6 倍（仅 1.78M 参数），且没有牺牲输出质量。音频样本可在此链接中找到：this https URL。

Jan, 2024

Grad-StyleSpeech: 基于扩散模型的任意说话人自适应语音合成

本研究提出了一种基于扩散模型的 Grad-StyleSpeech 方法，可以在很短时间内生成极具声音相似度的自适应语音合成，并在英文基准测试中显著优于最新的语音合成基线。

Nov, 2022

通过在 Mel 频谱预测上调节 WaveNet，进行自然语音合成

该论文阐述了 Tacotron 2 的神经网络框架，该框架可以从文本中直接合成语音，其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成，能够实现与专业录制的语音相当的平均意见分数 (MOS)。

Dec, 2017

基于神经源 - 滤波器的波形模型用于统计参数语音合成

该研究提出了一种非自回归神经源滤波波形模型，它可以直接使用基于光谱的训练准则和随机梯度下降方法进行训练，并生成至少比 AR WaveNet 快 100 倍的波形，生成的合成语音质量与 AR WaveNet 的语音生成质量接近，其中正弦波激励信号和基于光谱的训练准则对该模型的表现均至关重要。

Oct, 2018