DiffAR: 去噪扩散自回归模型用于原始语音波形生成

Oct, 2023

DiffAR: 去噪扩散自回归模型用于原始语音波形生成

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation

Roi Benita, Michael Elad, Joseph Keshet

TL;DR本文提出了一种基于扩散的概率端到端模型，用于生成原始语音波形，该模型通过自回归的方式顺序生成重叠帧，可以实现无限语音时长的合成，并保持高保真度和时间连贯性，通过直接处理波形具有优势，可以创建局部声学行为，同时该模型是随机的，生成略有差异的波形变体，实验结果表明相较于其他最先进的神经语音生成系统，所提出的模型具有更高的合成质量。

Abstract

diffusion models have recently been shown to be relevant for high-quality speech generation. Most work has been focused on generating spectrograms, and as such, they further require a subsequent model to convert

diffusion models speech generation probabilistic model waveform high-quality synthesis

发现论文，激发创造

DiffWave：一种用于音频合成的通用扩散模型

本文介绍了 DiffWave，这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形，并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频，并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。

Sep, 2020

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

AR-Diffusion: 自回归扩散模型用于文本生成

介绍了一种新的生成文本的方法 - 自回归扩散 (AR-Diffusion)，它通过引入动态去噪步骤来解决自然语言中的顺序依赖问题，在各种文本生成任务中表现优异。

May, 2023

视频生成的扩散概率建模

本文提出了一种自回归、端到端优化的视频扩散模型，受到神经视频压缩技术的启发，可用于生成高质量的视频，并提出了可扩展的连续排名概率得分（CRPS）方法，以评估视频的概率预测能力，该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。

Mar, 2022

使用线性扩散增强快速高质量语音合成

本文提出了一种基于普通微分方程的线性扩散模型（LinDiff），其旨在实现快速推理和高采样质量，并通过基于补丁的处理方法来减少计算复杂性和实现嘈杂语音的有效全局建模，并使用对抗性训练进一步改善样本质量，并在 Mel - 声谱图上条件语音合成中进行测试，实验结果表明，即使只有一个扩散步骤，该模型也可以合成高质量的语音，而且在更快的合成速度下合成质量与自回归模型相媲美。

Jun, 2023

非自回归条件扩散模型用于时间序列预测

本文提出了一种基于 non-autoregressive diffusion model 的时间序列预测模型 TimeDiff，通过引入 future mixup 和 autoregressive initialization 两种新的条件机制，实现了高质量的时间序列预测，并在实验中展现了超过现有模型的表现。

Jun, 2023

研究语音增强扩散模型的设计空间

扩展图像生成文献中的扩散模型框架以适应语音增强任务，通过探究扩散模型的设计方面，如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量，证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化，并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统，并减少约四分之一的计算成本。

Dec, 2023

图生成的自回归扩散模型

我们提出了一种基于扩散的图生成模型，通过定义在离散图空间中操作的节点吸收扩散过程，设计了扩散排序网络和去噪网络，从而实现了更好或相当的生成性能，并且具有快速的生成速度。

Jul, 2023

使用自回归扩散模型的可控运动合成和重建

该研究介绍了 MoDiff，它是一个基于自回归概率扩散模型的运动序列生成模型，其结合了跨模式 Transformer 编码器和基于 Transformer 的解码器，以生成控制时序依赖性的动作。该模型在运动合成方面表现优异，并通过数据丢弃方法来提高数据表示和运动合成的鲁棒性。

Apr, 2023

UnDiff: 无监督语音恢复与无条件扩散模型

本文介绍了 UnDiff，一种扩散概率模型，能够解决各种语音反问题，并可以应用于条件不同的任务，如降级反演、神经声波编解码和语音来源分离等。首先，我们比较了不同的神经架构和预处理方法来解决无条件波形生成的难题，并通过最新的扩散模型后处理技术演示了如何将无条件扩散模型应用于语音处理中的不同任务。最终，在带宽扩展、去剪辑、声学编解码和语音来源分离等任务上展示了所提出的技术的性能，并与基线进行比较。

Jun, 2023