基于扩散的语音转换和快速最大似然采样方案
本文提出 DiffVoice,一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明,我们的方法在自然度方面优于当前公开可用的最佳系统,并且通过采用最近的生成逆问题解决算法,DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。
Apr, 2023
DiffuseST 是一种低延迟的直接语音到语音翻译系统,能够在将多种源语言翻译为英语时保持输入讲话人的声音;我们通过比较基于 Tacotron 的合成器和基于扩散的合成器,发现基于扩散的合成器在提高音频质量度量 MOS 和 PESQ 各自达到 23%以及讲话人相似度提高 5%的同时,保持相当的 BLEU 得分;尽管参数数量超过两倍,扩散合成器具有更低的延迟,使整个模型的运行速度超过实时的 5 倍以上。
Jun, 2024
本文旨在探究扩散模型用于语音识别的潜在性,提出了以预训练的语音特征为条件的扩散模型 TransFusion,并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时,我们提出了有效采样和译码多项式扩散模型的新技术。
Oct, 2022
本文提出 DiffSVC,一种基于去噪扩散概率模型的 SVC 系统,在该系统中,使用语音后验谱图(PPG)等特征进行内容建模,并辅助使用基频和响度特征来辅助去噪。实验表明,DiffSVC 在自然度和语音相似度方面均优于当前最先进的 SVC 方法。
May, 2021
本文提出了一种基于一致性模型的语音合成方法 CoMoSpeech,采用单一扩散采样步骤实现语音合成。实验表明,CoMoSpeech 的推理速度比现实时间快 150 倍以上,并且在文本转语音和歌唱声音合成方面具有最佳音频质量。
May, 2023
本文对音频扩散模型进行了调查,针对文本转语音和语音增强这两个活跃任务,它将方法分为三类,即声学模型、波导合成和端到端框架,并通过添加或去除特定信号将各种语音增强任务进行分类,最后进行实验结果比较和讨论。
Mar, 2023
在这项研究中,我们提出了一种新的文本到语音系统,Bridge-TTS,通过将已建立的基于扩散的 TTS 方法中的嘈杂高斯先验替换为干净的确定性先验,以实现对目标的强结构信息的首次替代。
Dec, 2023
本文提出了一种新的方法,通过采样识别新目标的自然语音数据,并在推理期间利用加噪扩散语音模型生成具有目标讲话者相似声音的音频,而不需要进行任何训练步骤。
Jun, 2022
扩展图像生成文献中的扩散模型框架以适应语音增强任务,通过探究扩散模型的设计方面,如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量,证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化,并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统,并减少约四分之一的计算成本。
Dec, 2023
本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统,同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习,能够实现不同说话人以及多样化合成的语音转换。实验表明,在零样本情况下,与之前的 TTS 系统相比,本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高,并能通过只提供语音提示来实现新的零样本歌唱合成。
Apr, 2023