本文提出了一种基于一致性模型的语音合成方法 CoMoSpeech,采用单一扩散采样步骤实现语音合成。实验表明,CoMoSpeech 的推理速度比现实时间快 150 倍以上,并且在文本转语音和歌唱声音合成方面具有最佳音频质量。
May, 2023
本文提出 DiffSVC,一种基于去噪扩散概率模型的 SVC 系统,在该系统中,使用语音后验谱图(PPG)等特征进行内容建模,并辅助使用基频和响度特征来辅助去噪。实验表明,DiffSVC 在自然度和语音相似度方面均优于当前最先进的 SVC 方法。
May, 2021
在这篇论文中,我们提出了一种自监督的 SPA-SVC 方法,该方法可以改善 SVC 任务中的声音质量,无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数(SSIM)损失,有效提升了 SVC 模型的性能,实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。
Jun, 2024
研究声音转换的科学竞赛活动的最新版本,聚焦于歌声转换挑战,涉及新数据库、领域内和领域间任务,通过大型听力测试发现,除了顶级系统的自然度可达到人类水平,但没有团队能够获得与目标演讲者的相似度一样高的分数,并探讨了现有的客观测量是否能够预测感知表现,发现只有很少一部分能达到显著相关性。
Jun, 2023
本文介绍了我们的 T13 系统,用于 2023 年的歌声转换挑战赛(SVCC)。我们采用基于自监督学习的识别与合成方法,针对领域内和跨域的英语歌声转换任务,通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色,尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度,验证了我们提出方法的广义泛化能力。我们的客观评估结果显示,对于跨域歌声转换,使用大规模数据集尤为有益。
Oct, 2023
该研究提出了一种基于 PPGs 和 mel spectrograms 的端到端模型,实现了稳定的歌唱声音转换,并通过采用对抗性歌手混淆模块和 mel-regressive 表示学习模块提高了转换的效果,并在客观和主观实验中证明了该方法在音色和旋律方面的优越性。
Oct, 2020
本文提出了一种基于扩散概率模型的声学模型 DiffSinger,具有较好的稳定性和生成能力,较传统算法在歌唱合成上表现更好。
本文提出一种基于歌唱声音转换(SVC)的损失函数的替代损失组件,该组件通过歌手身份嵌入网络(SIE)来测量音频转换的相似度,在实验中表现出较好的转换效果。
Feb, 2023
本文采用扩散概率建模来解决一次多对多语音转换问题,并通过实证研究证明了其比使用最先进的语音转换方法要更具优势。在此基础上,我们通过理论分析并研发了适用于各种扩散模型类型的随机微分方程求解器,以便进一步提高其合成质量并实现实时应用。
Sep, 2021
MusicCM 利用一致性模型来高效合成音乐剪辑的 mel - 频谱图,通过最小化采样步骤保持高质量,并通过多个扩散过程生成连贯的音乐,实现了计算效率、保真度和自然性的有效性。
Apr, 2024