Diffsound: 文本生成音效的离散扩散模型
本论文提出了基于矢量量化扩散模型的文本到图像生成方法,在扩散条件变量程序模型的潜在空间中建模基于矢量量化变分自编码器的方法,消除了现有方法中的单向偏差,并允许我们结合掩模和替换扩散策略以避免误差积累,其结果在生成复杂场景的图像方面得到了显着的改进。
Nov, 2021
本研究提出了一种基于扩散模型的 Foley 声音生成系统,该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习,将该模型初始化地进行了预训练,以缓解数据不足问题。实验结果表明,该方法显着提高了声音生成性能,使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。
Jun, 2023
通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS,最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech,它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram,并引入了基于变分自动编码器和韵律瓶颈的提示编码结构,以提高提示表示能力。我们还提出了 Tetra-Diff-Speech,通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时,我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明,我们的方法优于基准方法。我们提供了一个包含音频样本的网站。
Jul, 2023
本文介绍了一种新型非自回归 TTS 模型 Diff-TTS,以噪声信号与扩散时间步长探索去噪扩散框架,同时引入基于可能性的 TTS 优化方法,利用加速采样方法提高波形合成速度,实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍,并且质量良好。
Apr, 2021
本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型,该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成,实验结果表明,该模型在自然度方面表现优异,可与 VQ-VAE 模型的重构相媲美。
May, 2020
本文提出 DiffVoice,一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明,我们的方法在自然度方面优于当前公开可用的最佳系统,并且通过采用最近的生成逆问题解决算法,DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。
Apr, 2023
本文提出了一种基于扩散的概率端到端模型,用于生成原始语音波形,该模型通过自回归的方式顺序生成重叠帧,可以实现无限语音时长的合成,并保持高保真度和时间连贯性,通过直接处理波形具有优势,可以创建局部声学行为,同时该模型是随机的,生成略有差异的波形变体,实验结果表明相较于其他最先进的神经语音生成系统,所提出的模型具有更高的合成质量。
Oct, 2023
本文提出了一种离散潜在空间的顺序先验方法,可以更自然地生成高度连续的语音,通过使用向量量化(VQ)对潜在特征进行离散化,并分别在结果上训练自回归(AR)先验模型,在听觉测试和自动语音识别(ASR)性能的客观指标方面,实验结果表明所提出的模型显著提高了随机样本生成的自然度,而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。
Feb, 2020
通过将矢量量化变分自编码器(VQ-VAE)与离散扩散模型结合,我们提出了一种生成具有目标作曲家风格的符号音乐的方法,结果表明,我们的模型在满足给定条件的情况下以 72.36% 的高准确率生成符号音乐。
Oct, 2023
本文研究使用扩散模型(diffusion model)来处理序列到序列文本生成问题,探讨扩散模型的优越生成性能是否可转移到自然语言领域。提出 SeqDiffuSeq,一种使用自适应噪声调度技术的文本扩散模型,结合自编码器变压器(encoder-decoder Transformers)架构,实现去噪声函数建模,通过实验得出扩散模型在文本生成的质量和推理时间方面都表现良好。
Dec, 2022