神经声码器的多目标情感语音转换

Apr, 2020

神经声码器的多目标情感语音转换

Multi-Target Emotional Voice Conversion With Neural Vocoders

Songxiang Liu, Yuewen Cao, Helen Meng

TL;DR本文介绍了一种利用深度双向长短期记忆网络和神经合成器来进行语音的情感转换，同时使用包含丰富语言信息的音素后验概率作为辅助输入特征，提高了转换效果的多目标情感转换架构 Multi-target EVC (MTEVC)，并将条件 WaveNet 和基于流的 WaveNet (FloWaveNet) 神经合成器作为其核心部件，训练了这些神经合成器，并将语音库中的说话者信息以及情感信息定义为附加特征。实验结果的客观度量和主观评估验证了提出的 MTEVC 架构在情感语音转换方面的有效性。

Abstract

emotional voice conversion (EVC) is one way to generate expressive synthetic speech. Previous approaches mainly focused on modeling one-to-one mapping, i.e., conversion from one emotional state to another emotional state, with Mel-cepstral vocoders. In this paper, we investigate buildi

emotional voice conversion deep bidirectional long-short term memory neural vocoder phonetic posteriorgrams multi-target evc

发现论文，激发创造

基于语音合成的小数据情感语音转换：两阶段序列到序列训练

本文提出了一种新的 2 阶段训练策略，用于在保留语言内容和说话者身份的同时改变话语的情感状态，包括用于转换情感样式和语言信息的技术，并在客观和主观评估中显著改善目前的技术水平。

Mar, 2021

Sequence-to-Sequence 情感语音转换概述和分析

本文调查了最近使用序列到序列模型进行情感语音转换的文章，从 6 个方面总结了它们的动机、训练策略、模型架构、数据集、模型输入和评估方法，并为研究人员提供了当前最先进技术的易于理解的概述，最后讨论了序列到序列情感语音转换的现有挑战。

Mar, 2022

基于多任务学习的情感语音转换与语音合成

本文提出一种使用多任务学习的语音转换器，该转换器使用基于 seq2seq 的文本到语音作为嵌入空间，旨在提高保留语言信息的能力。在韩国男性情感文本 - 语音数据集上进行的实验表明，多任务学习有助于在语音转换中保留语言内容。

Nov, 2019

使用双领域对抗网络和虚拟对应进行非平行情感语音转换，对于未知说话者情感对

本文旨在解决情感语音转换领域的一个问题：将没有任何语音情感数据的说话人语音的情感样式从一种风格转换为另一种风格。通过使用双编码器和虚拟领域对偶策略，我们提出的方法在一定程度上解决了基于 GANS 的 EVC 的问题，而且在印地语情感语音数据库上进行了验证。

Feb, 2023

DurFlex-EVC: 持续可变情感语音转换并行生成

本研究介绍了一种基于序列到序列模型的 Duration-Flexible 情感语音转换方法 (DurFlex-EVC)，通过引入样式自编码器和单位对齐器，实现了同时建模音高和持续时间的并行语音生成，提高了转换的可靠性和效率，并通过跨注意机制使得包含语言和语外信息的自监督学习表示与各种情感进行同步，进一步通过样式自编码器对样式元素进行解耦和操作，经过主客观评估证明了该方法相较于现有模型在领域内的优越性。

Jan, 2024

VAW-GAN: 一种用于语音情感元素解耦和重组的方法

本篇研究通过变分自编码 Wasserstein 生成对抗网络（VAW-GAN）研究情感音频的解耦和重组，提出一种基于 VAW-GAN 的发言者依赖型情感语音转换框架，包括两个 VAW-GAN 管道，一个用于频谱转换，另一个用于韵律转换，在客观和主观评估中验证了我们提出的方法的有效性。

Nov, 2020

情感语音转换的情感强度及其控制

本文提出了一种基于情感标签库的情感语音转换网络，可以控制输出语音的细粒度情感强度和情感表达能力，并将说话人风格从语言内容中解耦，并用连续的空间中的样式嵌入来编码说话人风格。

Jan, 2022

将任何人的情感转换为说话者无关的情感语音转换

本文提出了一个说话人无关的情感语音转换框架，该框架使用基于 VAW-GAN 的编码器 - 解码器结构和连续小波变换（CWT）来执行谱和韵律转换，还尝试使用 F0 作为解码器的附加输入来提高情感转换性能。实验结果表明，该框架在看到和未看到的说话人方面都可以获得有竞争力的结果。

May, 2020

通向通用文本指导的语音转换

这篇论文介绍了一种新颖的语音转换（VC）模型，它由文本指令引导，比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同，我们的模型为语音转换增加了多样性和特定性。提出的 VC 模型是一种神经编解码语言模型，处理离散代码序列，生成转换语音的代码序列。它利用文本指令作为风格提示来修改给定语音的韵律和情感信息。与以往的方法相比，我们的模型以端到端的方式处理语音的各种信息，而不再依赖于使用不同的编码器来处理源语音的韵律和内容等不同方面。实验证明了我们的模型在理解指令并产生合理结果方面的令人印象深刻的能力。

Sep, 2023

VQVC+: 基于向量量化和 U-Net 架构的一次性语音转换

本文利用 U-Net 架构和向量量化方法来优化声音转换，取得了良好的声音自然度和说话人相似度。

Jun, 2020