2018 年语音转换挑战赛：促进并行和非并行方法的开发

Apr, 2018

2018 年语音转换挑战赛：促进并行和非并行方法的开发

The Voice Conversion Challenge 2018: Promoting Development of Parallel and Nonparallel Methods

Jaime Lorenzo-Trueba, Junichi Yamagishi, Tomoki Toda, Daisuke Saito, Fernando Villavicencio...

TL;DR本文主要介绍 2018 年语音转换挑战赛，包括任务及相关技术和结果总结。

Abstract

We present the voice conversion challenge 2018, designed as a follow up to the 2016 edition with the aim of providing a common framework for evaluating and comparing different state-of-the-art voice conversion (VC) systems. The objective of the challenge was to perform →

voice conversion challenge speaker conversion state-of-the-art techniques parallel and non-parallel data perceptual evaluation

发现论文，激发创造

2020 年语音转换挑战赛：内语言半平行语音转换和跨语言语音转换

2020 声音转换挑战赛第三版主要比较和理解同一数据集上构建的不同语音转换系统在两个任务，即内语言半对称和跨语言语音转换上的表现，并在众包听测试中表现出大量使用深度学习方法的转换技术的快速进展，但未达到人类级的自然性。

Aug, 2020

2023 年唱声转换挑战赛

研究声音转换的科学竞赛活动的最新版本，聚焦于歌声转换挑战，涉及新数据库、领域内和领域间任务，通过大型听力测试发现，除了顶级系统的自然度可达到人类水平，但没有团队能够获得与目标演讲者的相似度一样高的分数，并探讨了现有的客观测量是否能够预测感知表现，发现只有很少一部分能达到显著相关性。

Jun, 2023

语音转换及其挑战：从统计建模到深度学习的概述

本文给出了语音转换技术及其性能评估方法的最新进展概述，并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。

Aug, 2020

2020 年语音转换挑战赛主观评级和欺骗性评估的预测

该研究分析了五种客观评估方法对于語音转换（VC）的有效性，并发现与具有客观评估相比，排行榜依赖用户测试的次要评估可能效果较差；同时，还揭示了某些 VC 方法存在潜在的高安全风险。

Sep, 2020

非平行语音转换中源样式转移

本研究提出一种基于序列到序列的非并行语音转换方法，该方法能够通过显式建模将源语音中的说话风格转移至转换后的语音，并在客观评估和主观听力测试中证明了其在语音自然度和说话人相似度方面优于其他方法，并进行了实验来展示该方法的源语音风格可转移性。

May, 2020

利用大规模语音和歌唱数据进行声音转换模型的比较研究：针对 2023 年歌声转换挑战的 T13 系统

本文介绍了我们的 T13 系统，用于 2023 年的歌声转换挑战赛（SVCC）。我们采用基于自监督学习的识别与合成方法，针对领域内和跨域的英语歌声转换任务，通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色，尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度，验证了我们提出方法的广义泛化能力。我们的客观评估结果显示，对于跨域歌声转换，使用大规模数据集尤为有益。

Oct, 2023

谁是真实的讲者

探索利用深度学习技术进行声音转换，识别原始说话者的可行性，通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性，并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。

Apr, 2024

CycleGAN-VC2：基于改进 CycleGAN 的非平行语音转换技术

本文提出了 CycleGAN-VC2，它是 CycleGAN-VC 的改进版本，加入了三种新技术：改进的目标函数（两步对抗性损失）、改进的生成器（2-1-2D CNN）和改进的鉴别器（PatchGAN），经过客观和主观评估，表明 CycleGAN-VC2 在语音转换任务中具有更接近目标的特征序列，且自然度和相似度更好。

Apr, 2019

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019

使用非平行训练数据从语音合成到语音转换的迁移学习

本文提出了一种基于 TTS-VC 转移学习的语音转换框架，采用多说话人语音合成系统和编码器 - 解码器架构等技术，实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。

Sep, 2020