Diffsound: 文本生成音效的离散扩散模型

Jul, 2022

Diffsound: 文本生成音效的离散扩散模型

Diffsound: Discrete Diffusion Model for Text-to-sound Generation

Dongchao Yang, Jianwei Yu, Helin Wang, Wen Wang, Chao Weng...

TL;DR本研究提出了一种基于非自回归解码器、矢量量化变分自编码器、谱图及声码器的文本到声音生成框架，在声音生成效果和速度方面较传统的自回归解码器都有较大的提升。

Abstract

Generating sound effects that humans want is an important topic. However, there are few studies in this area for sound generation. In this study, we investigate generating sound conditioned on a text prompt and propose a novel →

text-to-sound generation non-autoregressive decoder vector quantized variational autoencoder mel-spectrogram sound effects

发现论文，激发创造

文本到图像的向量量化扩散模型

本论文提出了基于矢量量化扩散模型的文本到图像生成方法，在扩散条件变量程序模型的潜在空间中建模基于矢量量化变分自编码器的方法，消除了现有方法中的单向偏差，并允许我们结合掩模和替换扩散策略以避免误差积累，其结果在生成复杂场景的图像方面得到了显着的改进。

Nov, 2021

基于潜在扩散模型的文本驱动 Foley 声音生成

本研究提出了一种基于扩散模型的 Foley 声音生成系统，该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习，将该模型初始化地进行了预训练，以缓解数据不足问题。实验结果表明，该方法显着提高了声音生成性能，使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。

Jun, 2023

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023

DiffAR: 去噪扩散自回归模型用于原始语音波形生成

本文提出了一种基于扩散的概率端到端模型，用于生成原始语音波形，该模型通过自回归的方式顺序生成重叠帧，可以实现无限语音时长的合成，并保持高保真度和时间连贯性，通过直接处理波形具有优势，可以创建局部声学行为，同时该模型是随机的，生成略有差异的波形变体，实验结果表明相较于其他最先进的神经语音生成系统，所提出的模型具有更高的合成质量。

Oct, 2023

利用量化的细粒度 VAE 和自回归韵律先验生成多样且自然的文本语音样本

本文提出了一种离散潜在空间的顺序先验方法，可以更自然地生成高度连续的语音，通过使用向量量化（VQ）对潜在特征进行离散化，并分别在结果上训练自回归（AR）先验模型，在听觉测试和自动语音识别（ASR）性能的客观指标方面，实验结果表明所提出的模型显著提高了随机样本生成的自然度，而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。

Feb, 2020

使用向量量化离散扩散模型进行特定作曲家风格的符号音乐生成

通过将矢量量化变分自编码器（VQ-VAE）与离散扩散模型结合，我们提出了一种生成具有目标作曲家风格的符号音乐的方法，结果表明，我们的模型在满足给定条件的情况下以 72.36% 的高准确率生成符号音乐。

Oct, 2023

SeqDiffuSeq：带有编码器 - 解码器变压器的文本扩散

本文研究使用扩散模型（diffusion model）来处理序列到序列文本生成问题，探讨扩散模型的优越生成性能是否可转移到自然语言领域。提出 SeqDiffuSeq，一种使用自适应噪声调度技术的文本扩散模型，结合自编码器变压器（encoder-decoder Transformers）架构，实现去噪声函数建模，通过实验得出扩散模型在文本生成的质量和推理时间方面都表现良好。

Dec, 2022