如犬相语：人类到非人类生物的声音转换

Jun, 2022

如犬相语：人类到非人类生物的声音转换

Speak Like a Dog: Human to Non-human creature Voice Conversion

Kohei Suzuki, Shoki Sakamoto, Tadahiro Taniguchi, Hirokazu Kameoka

TL;DR本文提出了从人类语音到狗狗语音的语音转换任务，并尝试使用 Mel-spectrogram 来保持狗狗语音的相似度。

Abstract

This paper proposes a new voice conversion (VC) task from human speech to dog-like speech while preserving linguistic information as an example of human to non-human creature →

voice conversion linguistic information preservation non-human creature mel-spectrogram dog-likeness

发现论文，激发创造

2018 年语音转换挑战赛：促进并行和非并行方法的开发

本文主要介绍 2018 年语音转换挑战赛，包括任务及相关技术和结果总结。

Apr, 2018

谁是真实的讲者

探索利用深度学习技术进行声音转换，识别原始说话者的可行性，通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性，并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。

Apr, 2024

2020 年语音转换挑战赛：内语言半平行语音转换和跨语言语音转换

2020 声音转换挑战赛第三版主要比较和理解同一数据集上构建的不同语音转换系统在两个任务，即内语言半对称和跨语言语音转换上的表现，并在众包听测试中表现出大量使用深度学习方法的转换技术的快速进展，但未达到人类级的自然性。

Aug, 2020

走向狗吠解码：利用人类语音处理进行自动狗吠分类

本文研究狗的声音，并探索利用在人类语音上预训练的自监督语音表示模型来解决狗吠分类任务，该任务与人类语音识别中的任务有相似之处。我们具体研究了狗的识别、品种鉴定、性别分类和语境关联四个任务，并表明使用语音嵌入表示可以显著改善简单分类基线。此外，我们还发现在几个任务中，预训练于大规模人类语音声学的模型可以提供额外的性能提升。

Apr, 2024

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019

通向通用文本指导的语音转换

这篇论文介绍了一种新颖的语音转换（VC）模型，它由文本指令引导，比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同，我们的模型为语音转换增加了多样性和特定性。提出的 VC 模型是一种神经编解码语言模型，处理离散代码序列，生成转换语音的代码序列。它利用文本指令作为风格提示来修改给定语音的韵律和情感信息。与以往的方法相比，我们的模型以端到端的方式处理语音的各种信息，而不再依赖于使用不同的编码器来处理源语音的韵律和内容等不同方面。实验证明了我们的模型在理解指令并产生合理结果方面的令人印象深刻的能力。

Sep, 2023

CycleGAN-VC2：基于改进 CycleGAN 的非平行语音转换技术

本文提出了 CycleGAN-VC2，它是 CycleGAN-VC 的改进版本，加入了三种新技术：改进的目标函数（两步对抗性损失）、改进的生成器（2-1-2D CNN）和改进的鉴别器（PatchGAN），经过客观和主观评估，表明 CycleGAN-VC2 在语音转换任务中具有更接近目标的特征序列，且自然度和相似度更好。

Apr, 2019

基于循环一致性对抗网络实现高质量非平行语音转换

本文提出了使用循环一致对抗网络（CycleGAN）进行非平行数据语音转换训练的方法，并通过主观评价证明其优于 Merlin 开源神经网络语音合成系统和基于 GAN 的平行 VC 系统。这是非平行 VC 方法表现超过最先进的平行 VC 方法的首次研究。

Apr, 2018

语音转换及其挑战：从统计建模到深度学习的概述

本文给出了语音转换技术及其性能评估方法的最新进展概述，并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。

Aug, 2020

使用变分自编码瓶颈网络和 Wasserstein 生成对抗网络从不对齐语料库进行语音转换

该论文提出了一种基于 VAW-GAN 的非平行语音转换框架，可以用于从未对齐的语音语料库中构建语音转换系统，并展示了该框架的有效性和提升的转换质量。

Apr, 2017