2023 年唱声转换挑战赛

Jun, 2023

The Singing Voice Conversion Challenge 2023

Wen-Chin Huang, Lester Phillip Violeta, Songxiang Liu, Jiatong Shi, Yusuke Yasuda...

TL;DR研究声音转换的科学竞赛活动的最新版本，聚焦于歌声转换挑战，涉及新数据库、领域内和领域间任务，通过大型听力测试发现，除了顶级系统的自然度可达到人类水平，但没有团队能够获得与目标演讲者的相似度一样高的分数，并探讨了现有的客观测量是否能够预测感知表现，发现只有很少一部分能达到显著相关性。

Abstract

We present the latest iteration of the voice conversion challenge (VCC) series, a bi-annual scientific event aiming to compare and understand different voice conversion (VC) systems based on a common

voice conversion singing voice conversion dataset crowd-sourced listening test objective measurements

发现论文，激发创造

利用大规模语音和歌唱数据进行声音转换模型的比较研究：针对 2023 年歌声转换挑战的 T13 系统

本文介绍了我们的 T13 系统，用于 2023 年的歌声转换挑战赛（SVCC）。我们采用基于自监督学习的识别与合成方法，针对领域内和跨域的英语歌声转换任务，通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色，尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度，验证了我们提出方法的广义泛化能力。我们的客观评估结果显示，对于跨域歌声转换，使用大规模数据集尤为有益。

Oct, 2023

2020 年语音转换挑战赛：内语言半平行语音转换和跨语言语音转换

2020 声音转换挑战赛第三版主要比较和理解同一数据集上构建的不同语音转换系统在两个任务，即内语言半对称和跨语言语音转换上的表现，并在众包听测试中表现出大量使用深度学习方法的转换技术的快速进展，但未达到人类级的自然性。

Aug, 2020

2018 年语音转换挑战赛：促进并行和非并行方法的开发

本文主要介绍 2018 年语音转换挑战赛，包括任务及相关技术和结果总结。

Apr, 2018

SPA-SVC：自我监督的歌声转换中的音高增强

在这篇论文中，我们提出了一种自监督的 SPA-SVC 方法，该方法可以改善 SVC 任务中的声音质量，无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数（SSIM）损失，有效提升了 SVC 模型的性能，实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。

Jun, 2024

2020 年语音转换挑战赛主观评级和欺骗性评估的预测

该研究分析了五种客观评估方法对于語音转换（VC）的有效性，并发现与具有客观评估相比，排行榜依赖用户测试的次要评估可能效果较差；同时，还揭示了某些 VC 方法存在潜在的高安全风险。

Sep, 2020

基于一致性模型的歌声转换

CoMoSVC 是使用扩散原理的一种基于一致性模型的歌声转换方法，该方法旨在实现高质量生成和高速采样，尽管其推断速度明显快于最先进的扩散原理系统，并且在主观和客观指标上实现相当或更好的转换性能。

Jan, 2024

SVDD 挑战 2024：唱歌声深度伪造检测挑战 - 评估计划

AI 生成的歌唱声音的快速发展引起了艺术家和音乐行业的高度关注，基于音乐性质和强烈背景音乐的唱歌声音的深度伪造检测（SVDD）是一个需要专注的专业领域。为推动 SVDD 研究，我们最近提出了 “SVDD 挑战”，这是第一个侧重于实验室控制和真实场景下真实和深度伪造歌唱声音录制的研究挑战。该挑战将与 2024 年 IEEE 口语语言技术研讨会（SLT 2024）同时举行。

May, 2024

语音转换及其挑战：从统计建模到深度学习的概述

本文给出了语音转换技术及其性能评估方法的最新进展概述，并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。

Aug, 2020

DiffSVC：一种用于歌声转换的扩散概率模型

本文提出 DiffSVC，一种基于去噪扩散概率模型的 SVC 系统，在该系统中，使用语音后验谱图（PPG）等特征进行内容建模，并辅助使用基频和响度特征来辅助去噪。实验表明，DiffSVC 在自然度和语音相似度方面均优于当前最先进的 SVC 方法。

May, 2021

基于 PPG 的对抗性表示学习唱声转换

该研究提出了一种基于 PPGs 和 mel spectrograms 的端到端模型，实现了稳定的歌唱声音转换，并通过采用对抗性歌手混淆模块和 mel-regressive 表示学习模块提高了转换的效果，并在客观和主观实验中证明了该方法在音色和旋律方面的优越性。

Oct, 2020