一种用于并行语音合成的谱能距离

Aug, 2020

一种用于并行语音合成的谱能距离

A Spectral Energy Distance for Parallel Speech Synthesis

Alexey A. Gritsenko, Tim Salimans, Rianne van den Berg, Jasper Snoek, Nal Kalchbrenner

TL;DR提出了一种基于能量距离的新学习方法，可以训练高度并行的语音模型，并达到隐式生成模型的最新成果，与 GAN-TTS 模型相结合可以提高人类评估者判断的平均意见分数。

Abstract

speech synthesis is an important practical generative modeling problem that has seen great progress over the last few years, with likelihood-based autoregressive neural models now outperforming traditional concat

speech synthesis autoregressive neural models generative models parallel models implicit generative models

发现论文，激发创造

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

评估和减少合成语音与真实语音分布之间的距离

本研究对现代的语音合成系统中真实和合成人类语音之间的分布距离进行了研究，并通过提供话语级别信息来减少该距离，并通过评估合成数据的合适度确定改进。

Nov, 2022

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

端到端对抗文本转语音

该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法，使用逐字符或逐音素音频输出序列，通过可微分的对齐策略来保证高保真度音频的生成，实现了在不需要多阶段训练和额外监督下，比之前的技术达到了相似的高质量合成音效。

Jun, 2020

基于可微分数字信号处理和光谱最优传输的无监督谐波参数估计

神经音频信号处理中，通过使用基频调节来增强合成器性能，但是通过使用标准的音频重建损失函数联合训练基频估计器和合成器是一种挑战，从而依赖于外部的基频跟踪器。为了解决这个问题，我们提出使用受到最优传输理论启发的谱损失函数来最小化谱能量的位移。我们通过无监督的自编码任务在谐波信号上拟合谐波模板来验证这种方法。我们使用轻量级编码器共同估计基频和谐波的幅度，并使用可微的谐波合成器重构信号。这种方法为改善神经音频应用中的无监督参数估计提供了有前途的方向。

Dec, 2023

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

融合生成对抗网络的统计参数语音合成

本文介绍了一种使用生成对抗网络（GAN）的统计参数语音合成方法，相比于传统的最小生成误差训练算法，该方法能够更自然地生成语音波形，并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异，并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。

Sep, 2017

基于扩散型生成模型的无监督语音增强

最近，条件评分驱动扩散模型在监督式语音增强领域引起了显著关注，取得了最先进的性能。然而，这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题，我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言，训练阶段，在短时傅里叶变换（STFT）领域中使用评分驱动扩散模型学习了干净语音的先验分布，使其能够从高斯噪声中无条件地生成干净语音。然后，我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化（EM）方法与干净语音估计同时学习。据我们所知，这是第一个探索基于扩散的生成模型用于无监督语音增强的工作，与最近的变分自编码器（VAE）无监督方法和最先进的基于扩散的监督方法相比，取得了有希望的结果。因此，它为未来的无监督语音增强研究开辟了新的方向。

Sep, 2023