2018 年语音转换挑战赛:促进并行和非并行方法的开发
2020 声音转换挑战赛第三版主要比较和理解同一数据集上构建的不同语音转换系统在两个任务,即内语言半对称和跨语言语音转换上的表现,并在众包听测试中表现出大量使用深度学习方法的转换技术的快速进展,但未达到人类级的自然性。
Aug, 2020
研究声音转换的科学竞赛活动的最新版本,聚焦于歌声转换挑战,涉及新数据库、领域内和领域间任务,通过大型听力测试发现,除了顶级系统的自然度可达到人类水平,但没有团队能够获得与目标演讲者的相似度一样高的分数,并探讨了现有的客观测量是否能够预测感知表现,发现只有很少一部分能达到显著相关性。
Jun, 2023
本文给出了语音转换技术及其性能评估方法的最新进展概述,并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。
Aug, 2020
该研究分析了五种客观评估方法对于語音转换(VC)的有效性,并发现与具有客观评估相比,排行榜依赖用户测试的次要评估可能效果较差;同时,还揭示了某些 VC 方法存在潜在的高安全风险。
Sep, 2020
本研究提出一种基于序列到序列的非并行语音转换方法,该方法能够通过显式建模将源语音中的说话风格转移至转换后的语音,并在客观评估和主观听力测试中证明了其在语音自然度和说话人相似度方面优于其他方法,并进行了实验来展示该方法的源语音风格可转移性。
May, 2020
本文介绍了我们的 T13 系统,用于 2023 年的歌声转换挑战赛(SVCC)。我们采用基于自监督学习的识别与合成方法,针对领域内和跨域的英语歌声转换任务,通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色,尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度,验证了我们提出方法的广义泛化能力。我们的客观评估结果显示,对于跨域歌声转换,使用大规模数据集尤为有益。
Oct, 2023
探索利用深度学习技术进行声音转换,识别原始说话者的可行性,通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性,并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。
Apr, 2024
本文提出了 CycleGAN-VC2,它是 CycleGAN-VC 的改进版本,加入了三种新技术:改进的目标函数(两步对抗性损失)、改进的生成器(2-1-2D CNN)和改进的鉴别器(PatchGAN),经过客观和主观评估,表明 CycleGAN-VC2 在语音转换任务中具有更接近目标的特征序列,且自然度和相似度更好。
Apr, 2019
本文提出了一种使用仅一次源和目标说话者示例语音,通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法,无需事先见过源和目标说话者训练模型即可执行声音转换,目标语音及说话者的相似性得到了客观和主观的评估,同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。
Apr, 2019
本文提出了一种基于 TTS-VC 转移学习的语音转换框架,采用多说话人语音合成系统和编码器 - 解码器架构等技术,实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。
Sep, 2020