2023 年唱声转换挑战赛
本文介绍了我们的 T13 系统,用于 2023 年的歌声转换挑战赛(SVCC)。我们采用基于自监督学习的识别与合成方法,针对领域内和跨域的英语歌声转换任务,通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色,尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度,验证了我们提出方法的广义泛化能力。我们的客观评估结果显示,对于跨域歌声转换,使用大规模数据集尤为有益。
Oct, 2023
2020 声音转换挑战赛第三版主要比较和理解同一数据集上构建的不同语音转换系统在两个任务,即内语言半对称和跨语言语音转换上的表现,并在众包听测试中表现出大量使用深度学习方法的转换技术的快速进展,但未达到人类级的自然性。
Aug, 2020
在这篇论文中,我们提出了一种自监督的 SPA-SVC 方法,该方法可以改善 SVC 任务中的声音质量,无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数(SSIM)损失,有效提升了 SVC 模型的性能,实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。
Jun, 2024
该研究分析了五种客观评估方法对于語音转换(VC)的有效性,并发现与具有客观评估相比,排行榜依赖用户测试的次要评估可能效果较差;同时,还揭示了某些 VC 方法存在潜在的高安全风险。
Sep, 2020
CoMoSVC 是使用扩散原理的一种基于一致性模型的歌声转换方法,该方法旨在实现高质量生成和高速采样,尽管其推断速度明显快于最先进的扩散原理系统,并且在主观和客观指标上实现相当或更好的转换性能。
Jan, 2024
AI 生成的歌唱声音的快速发展引起了艺术家和音乐行业的高度关注,基于音乐性质和强烈背景音乐的唱歌声音的深度伪造检测(SVDD)是一个需要专注的专业领域。为推动 SVDD 研究,我们最近提出了 “SVDD 挑战”,这是第一个侧重于实验室控制和真实场景下真实和深度伪造歌唱声音录制的研究挑战。该挑战将与 2024 年 IEEE 口语语言技术研讨会(SLT 2024)同时举行。
May, 2024
本文给出了语音转换技术及其性能评估方法的最新进展概述,并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。
Aug, 2020
本文提出 DiffSVC,一种基于去噪扩散概率模型的 SVC 系统,在该系统中,使用语音后验谱图(PPG)等特征进行内容建模,并辅助使用基频和响度特征来辅助去噪。实验表明,DiffSVC 在自然度和语音相似度方面均优于当前最先进的 SVC 方法。
May, 2021
该研究提出了一种基于 PPGs 和 mel spectrograms 的端到端模型,实现了稳定的歌唱声音转换,并通过采用对抗性歌手混淆模块和 mel-regressive 表示学习模块提高了转换的效果,并在客观和主观实验中证明了该方法在音色和旋律方面的优越性。
Oct, 2020