利用大规模语音和歌唱数据进行声音转换模型的比较研究：针对 2023 年歌声转换挑战的 T13 系统

Oct, 2023

利用大规模语音和歌唱数据进行声音转换模型的比较研究：针对 2023 年歌声转换挑战的 T13 系统

A Comparative Study of Voice Conversion Models with Large-Scale Speech and Singing Data: The T13 Systems for the Singing Voice Conversion Challenge 2023

PDF

Ryuichi Yamamoto, Reo Yoneyama, Lester Phillip Violeta, Wen-Chin Huang, Tomoki Toda

TL;DR本文介绍了我们的 T13 系统，用于 2023 年的歌声转换挑战赛（SVCC）。我们采用基于自监督学习的识别与合成方法，针对领域内和跨域的英语歌声转换任务，通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色，尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度，验证了我们提出方法的广义泛化能力。我们的客观评估结果显示，对于跨域歌声转换，使用大规模数据集尤为有益。

Abstract

This paper presents our systems (denoted as T13) for the singing voice conversion challenge (SVCC) 2023. For both in-domain and cross-domain English singing voice conversion (SVC) tasks (Task 1 and Task 2), we adopt a r

singing voice conversion self-supervised learning recognition-synthesis approach diffusion-based model cross-domain svc

发现论文，激发创造

2023 年唱声转换挑战赛

研究声音转换的科学竞赛活动的最新版本，聚焦于歌声转换挑战，涉及新数据库、领域内和领域间任务，通过大型听力测试发现，除了顶级系统的自然度可达到人类水平，但没有团队能够获得与目标演讲者的相似度一样高的分数，并探讨了现有的客观测量是否能够预测感知表现，发现只有很少一部分能达到显著相关性。

Jun, 2023

2020 年语音转换挑战赛：内语言半平行语音转换和跨语言语音转换

2020 声音转换挑战赛第三版主要比较和理解同一数据集上构建的不同语音转换系统在两个任务，即内语言半对称和跨语言语音转换上的表现，并在众包听测试中表现出大量使用深度学习方法的转换技术的快速进展，但未达到人类级的自然性。

Aug, 2020

2018 年语音转换挑战赛：促进并行和非并行方法的开发

本文主要介绍 2018 年语音转换挑战赛，包括任务及相关技术和结果总结。

Apr, 2018

无监督跨域歌声转换

本文提出了一种无需手动监督的端对端 wav 到 wav 生成模型，用于实现任意身份的歌声转换，该模型利用音响模型和提取的旋律特征来驱动基于波形的生成器，经实验证明，在音频质量方面表现显著优于基线方法。

Aug, 2020

SPA-SVC：自我监督的歌声转换中的音高增强

在这篇论文中，我们提出了一种自监督的 SPA-SVC 方法，该方法可以改善 SVC 任务中的声音质量，无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数（SSIM）损失，有效提升了 SVC 模型的性能，实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。

Jun, 2024

语音转换及其挑战：从统计建模到深度学习的概述

本文给出了语音转换技术及其性能评估方法的最新进展概述，并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。

Aug, 2020

基于一致性模型的歌声转换

CoMoSVC 是使用扩散原理的一种基于一致性模型的歌声转换方法，该方法旨在实现高质量生成和高速采样，尽管其推断速度明显快于最先进的扩散原理系统，并且在主观和客观指标上实现相当或更好的转换性能。

Jan, 2024

DurIAN-SC: 能够考虑音长信息的歌声转换注意力网络系统

本文介绍了一种歌声转换算法，可以使用目标讲话者的正常语音数据生成高质量的目标讲话者歌声，并大大提高了歌声转换系统的鲁棒性和转换效率。

Aug, 2020

DeepSinger：基于网络挖掘数据的歌声合成

本文介绍了 DeepSinger，这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统，其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持

Jul, 2020

使用非平行训练数据从语音合成到语音转换的迁移学习

本文提出了一种基于 TTS-VC 转移学习的语音转换框架，采用多说话人语音合成系统和编码器 - 解码器架构等技术，实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。

Sep, 2020