正则流与扩散模型在文本转语音中的韵律和声学建模的比较

Jul, 2023

正则流与扩散模型在文本转语音中的韵律和声学建模的比较

Comparing normalizing flows and diffusion models for prosody and acoustic modelling in text-to-speech

Guangyan Zhang, Thomas Merritt, Manuel Sam Ribeiro, Biel Tura-Vecino, Kayoko Yanagisawa...

TL;DR神经语音合成系统通常以 L1/L2 损失为优化目标，本研究比较了传统的基于 L1/L2 的方法与扩散和流模型在语音合成中的效果，并发现流模型在音谱图预测方面表现最佳，同时扩散和流模型在韵律预测方面也显著优于典型的 L2 训练模型。

Abstract

neural text-to-speech systems are often optimized on l1/l2 losses, which make strong assumptions about the distributions of the target data space. Aiming to improve those assumptions, →

neural text-to-speech systems l1/l2 losses normalizing flows diffusion probabilistic models mel-spectrogram prediction

发现论文，激发创造

VoiceFlow：具有修正流匹配的高效文本到语音

VoiceFlow 是一种声学模型，利用修正流匹配算法实现高质量综合音频的有限采样步骤，比扩散对应模型具有更好的合成质量。

Sep, 2023

使用 AR 和基于流的先验网络预测音素级韵律潜变量用于表现力语音合成

本文比较了不同架构（prior architectures）在预测从 FVAE 模型中提取的音素级韵律表示方面的表现，并使用主观和客观指标证明了基于正规化流的先验网络可以在表现力方面产生更加生动的语音，并提出了一个动态 VAE 模型与基于流的模型相比，尽管在表现力和变异性上有所减少，但可以产生更高质量的语音。

Nov, 2022

从有条件的归一化流中提取知识

本研究通过提出一种简单的蒸馏方法，证明了在图像超分辨率和语音合成领域，可以将基于流的模型提炼为更高效的替代模型。

Jun, 2021

扩散正规流

本文介绍了基于随机微分方程的扩散归一化流生成建模新方法 —— 扩散归一化流算法。该算法使用两个神经 SDE：一个前向 SDE 和一个后向 SDE，通过联合训练两个神经 SDE，将后向 SDE 收敛于一种扩散过程，从而具备更好的高维数据密度估计和图像生成性能。

Oct, 2021

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022

离散序列的潜在正则化流

提出了一种基于 VAE 的生成模型，该模型联合训练了基于正则化流的潜在空间分布和到观察到的离散空间的随机映射，解决了直接对离散序列应用正则化流所面临的挑战，并具有可比拟的性能和流灵活性。

Jan, 2019

正规流：当前方法的介绍与评述

本文综述了 Normalizing Flows 在分布学习中的构建和使用，旨在提供模型的背景和解释，回顾现有的最新文献，并确定未来可行的有前途的方向和未解决的问题。

Aug, 2019

AE-Flow：自动编码器归一化流

我们引入一种新的训练范式：自编码器归一化流（AE-Flow），它通过添加重构损失，使模型使用条件信息重构音频样本，结果表明该方法在正常化流的训练中系统地提高了说话者相似性和自然度。

Dec, 2023

DiffProsody: 基于扩散的潜在韵律生成，用于具有韵律条件对抗训练的表情化语音合成

通过使用基于扩散的潜在韵律生成器和韵律条件对抗训练的新方法 DiffProsody，本研究证实了其在生成韵律向量方面的有效性，并且韵律条件鉴别器通过准确模拟韵律极大提高了生成语音的质量。使用去噪扩散生成对抗网络提高了韵律生成的速度，因此 DiffProsody 能够比传统的扩散模型生成韵律的速度快 16 倍。通过实验证明了我们提出的方法具有卓越的性能。

Jul, 2023

概率建模与推理的正则化流

本文综述了正则流动的研究现状，通过概率建模和推断的视角，分析了其表达能力、计算权衡等基础原理，并将其与更一般的概率转换联系起来，总结了其在生成建模、近似推断和监督学习等任务中的应用。

Dec, 2019