DiffSVC:一种用于歌声转换的扩散概率模型
该研究提出了一种基于 PPGs 和 mel spectrograms 的端到端模型,实现了稳定的歌唱声音转换,并通过采用对抗性歌手混淆模块和 mel-regressive 表示学习模块提高了转换的效果,并在客观和主观实验中证明了该方法在音色和旋律方面的优越性。
Oct, 2020
CoMoSVC 是使用扩散原理的一种基于一致性模型的歌声转换方法,该方法旨在实现高质量生成和高速采样,尽管其推断速度明显快于最先进的扩散原理系统,并且在主观和客观指标上实现相当或更好的转换性能。
Jan, 2024
在这篇论文中,我们提出了一种自监督的 SPA-SVC 方法,该方法可以改善 SVC 任务中的声音质量,无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数(SSIM)损失,有效提升了 SVC 模型的性能,实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。
Jun, 2024
研究声音转换的科学竞赛活动的最新版本,聚焦于歌声转换挑战,涉及新数据库、领域内和领域间任务,通过大型听力测试发现,除了顶级系统的自然度可达到人类水平,但没有团队能够获得与目标演讲者的相似度一样高的分数,并探讨了现有的客观测量是否能够预测感知表现,发现只有很少一部分能达到显著相关性。
Jun, 2023
Diff-HierVC 是一种基于两个扩散模型的分层语音转换系统,通过 DiffPitch 有效地生成具有目标音色的 F0,然后使用 DiffVoice 将语音转换为目标音色,通过源 - 滤波器编码器进行信息分离,并在 DiffVoice 中使用转换后的 Mel 频谱图作为数据驱动先验,从而提高语音风格转换能力,通过扩散模型中的遮罩先验,提高说话者适应质量。实验结果验证了 Diff-HierVC 在音高生成和语音风格转换性能上的优越性,在零样本语音转换场景中,其 CER 为 0.83%,EER 为 3.29%。
Nov, 2023
本文采用扩散概率建模来解决一次多对多语音转换问题,并通过实证研究证明了其比使用最先进的语音转换方法要更具优势。在此基础上,我们通过理论分析并研发了适用于各种扩散模型类型的随机微分方程求解器,以便进一步提高其合成质量并实现实时应用。
Sep, 2021
HiddenSinger 是一个高质量的歌唱声音合成系统,使用神经音频编解码器和潜在扩散模型,解决了模型复杂性和可控性的问题,并在无标签歌声数据集上训练,产生了高品质的歌声合成结果。
Jun, 2023
本文提出 DiffVoice,一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明,我们的方法在自然度方面优于当前公开可用的最佳系统,并且通过采用最近的生成逆问题解决算法,DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。
Apr, 2023
本文介绍了一种新型非自回归 TTS 模型 Diff-TTS,以噪声信号与扩散时间步长探索去噪扩散框架,同时引入基于可能性的 TTS 优化方法,利用加速采样方法提高波形合成速度,实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍,并且质量良好。
Apr, 2021