语音转换给口吃的语言，乐器，未知语言和文本描述的声音转换

Oct, 2023

语音转换给口吃的语言，乐器，未知语言和文本描述的声音转换

Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and Textually Described Voices

Matthew Baas, Herman Kamper

TL;DR使用 k 最近邻声音转换模型，调查其在非标准下游语音转换任务中的表现，包括口吃声转换、跨语言声音转换、乐器转换和文本转语音转换。与基准线方法相比，k 最近邻声音转换在口吃声转换和跨语言声音转换中保持高性能，但在乐器转换和文本转语音转换任务中表现有所不同。然而，这表明声音转换模型，尤其是 k 最近邻声音转换，在各种非标准下游任务中逐渐具有应用价值，但在与训练分布相差较大的样本上仍存在一些限制。

Abstract

voice conversion aims to convert source speech into a target voice using recordings of the target speaker as a reference. Newer models are producing increasingly realistic output. But what happens when models are fed with →

voice conversion non-standard data k-nearest neighbors voice conversion stuttered voice conversion text-to-voice conversion

发现论文，激发创造

仅使用最近邻实现语音转换

本文提出了一种基于 k 邻近算法的任意声音转换方法（kNN-VC），并通过客观及主观评估显示其声音相似度较高，同时具有与现有方法相当的可理解性分数，可用于音频合成。

May, 2023

通向通用文本指导的语音转换

这篇论文介绍了一种新颖的语音转换（VC）模型，它由文本指令引导，比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同，我们的模型为语音转换增加了多样性和特定性。提出的 VC 模型是一种神经编解码语言模型，处理离散代码序列，生成转换语音的代码序列。它利用文本指令作为风格提示来修改给定语音的韵律和情感信息。与以往的方法相比，我们的模型以端到端的方式处理语音的各种信息，而不再依赖于使用不同的编码器来处理源语音的韵律和内容等不同方面。实验证明了我们的模型在理解指令并产生合理结果方面的令人印象深刻的能力。

Sep, 2023

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019

谁是真实的讲者

探索利用深度学习技术进行声音转换，识别原始说话者的可行性，通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性，并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。

Apr, 2024

使用非平行训练数据从语音合成到语音转换的迁移学习

本文提出了一种基于 TTS-VC 转移学习的语音转换框架，采用多说话人语音合成系统和编码器 - 解码器架构等技术，实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。

Sep, 2020

保留语音特征的零 - shot 多音系转换

研究使用对抗学习来实现口音转换，能够将说话者的声音身份保留下来，并可将未知说话者的话语转换为多种口音，主观评估显示该模型生成更接近目标口音且类似于原说话者的音频。

Nov, 2022

逐步提升语音识别和语音转换

本论文中，我们提出了一种新颖的迭代方法，用于同时提高自动语音识别模型和语音转换模型。我们在低数据资源情况下，通过使用语音转换模型作为数据增强方法来进一步微调 ASR 模型，从而实验性地展示了两个模型的性能提高。

May, 2023

语音转换及其挑战：从统计建模到深度学习的概述

本文给出了语音转换技术及其性能评估方法的最新进展概述，并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。

Aug, 2020

2018 年语音转换挑战赛：促进并行和非并行方法的开发

本文主要介绍 2018 年语音转换挑战赛，包括任务及相关技术和结果总结。

Apr, 2018

2020 年语音转换挑战赛：内语言半平行语音转换和跨语言语音转换

2020 声音转换挑战赛第三版主要比较和理解同一数据集上构建的不同语音转换系统在两个任务，即内语言半对称和跨语言语音转换上的表现，并在众包听测试中表现出大量使用深度学习方法的转换技术的快速进展，但未达到人类级的自然性。

Aug, 2020