DurFlex-EVC: 持续可变情感语音转换并行生成

Jan, 2024

DurFlex-EVC: 持续可变情感语音转换并行生成

DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation

Hyoung-Seok Oh, Sang-Hoon Lee, Deok-Hyun Cho, Seong-Whan Lee

TL;DR本研究介绍了一种基于序列到序列模型的 Duration-Flexible 情感语音转换方法 (DurFlex-EVC)，通过引入样式自编码器和单位对齐器，实现了同时建模音高和持续时间的并行语音生成，提高了转换的可靠性和效率，并通过跨注意机制使得包含语言和语外信息的自监督学习表示与各种情感进行同步，进一步通过样式自编码器对样式元素进行解耦和操作，经过主客观评估证明了该方法相较于现有模型在领域内的优越性。

Abstract

emotional voice conversion (evc) seeks to modify the emotional tone of a speaker's voice while preserving the original linguistic content and the speaker's unique vocal characteristics. Recent advancements in

emotional voice conversion evc sequence-to-sequence models duration-flexible evc style autoencoder

发现论文，激发创造

神经声码器的多目标情感语音转换

本文介绍了一种利用深度双向长短期记忆网络和神经合成器来进行语音的情感转换，同时使用包含丰富语言信息的音素后验概率作为辅助输入特征，提高了转换效果的多目标情感转换架构 Multi-target EVC (MTEVC)，并将条件 WaveNet 和基于流的 WaveNet (FloWaveNet) 神经合成器作为其核心部件，训练了这些神经合成器，并将语音库中的说话者信息以及情感信息定义为附加特征。实验结果的客观度量和主观评估验证了提出的 MTEVC 架构在情感语音转换方面的有效性。

Apr, 2020

Sequence-to-Sequence 情感语音转换概述和分析

本文调查了最近使用序列到序列模型进行情感语音转换的文章，从 6 个方面总结了它们的动机、训练策略、模型架构、数据集、模型输入和评估方法，并为研究人员提供了当前最先进技术的易于理解的概述，最后讨论了序列到序列情感语音转换的现有挑战。

Mar, 2022

基于语音合成的小数据情感语音转换：两阶段序列到序列训练

本文提出了一种新的 2 阶段训练策略，用于在保留语言内容和说话者身份的同时改变话语的情感状态，包括用于转换情感样式和语言信息的技术，并在客观和主观评估中显著改善目前的技术水平。

Mar, 2021

使用双领域对抗网络和虚拟对应进行非平行情感语音转换，对于未知说话者情感对

本文旨在解决情感语音转换领域的一个问题：将没有任何语音情感数据的说话人语音的情感样式从一种风格转换为另一种风格。通过使用双编码器和虚拟领域对偶策略，我们提出的方法在一定程度上解决了基于 GANS 的 EVC 的问题，而且在印地语情感语音数据库上进行了验证。

Feb, 2023

情感语音转换的情感强度及其控制

本文提出了一种基于情感标签库的情感语音转换网络，可以控制输出语音的细粒度情感强度和情感表达能力，并将说话人风格从语言内容中解耦，并用连续的空间中的样式嵌入来编码说话人风格。

Jan, 2022

基于多任务学习的情感语音转换与语音合成

本文提出一种使用多任务学习的语音转换器，该转换器使用基于 seq2seq 的文本到语音作为嵌入空间，旨在提高保留语言信息的能力。在韩国男性情感文本 - 语音数据集上进行的实验表明，多任务学习有助于在语音转换中保留语言内容。

Nov, 2019

VAW-GAN: 一种用于语音情感元素解耦和重组的方法

本篇研究通过变分自编码 Wasserstein 生成对抗网络（VAW-GAN）研究情感音频的解耦和重组，提出一种基于 VAW-GAN 的发言者依赖型情感语音转换框架，包括两个 VAW-GAN 管道，一个用于频谱转换，另一个用于韵律转换，在客观和主观评估中验证了我们提出的方法的有效性。

Nov, 2020

使用全新情感语音数据集实现可见和不可见情感风格转换的声音转换技术

本文提出了一种基于 VAW-GAN 框架的转换情感语音的方法，通过使用预训练的语音情感识别模型来传递情感样式，使网络能够将已知和未知的情感样式转移到新的话语中，从而实现了出色的性能，并发布了一个情感语音数据集。

Oct, 2020

利用深度生成混合网络和敌对对偶辨别器进行非并行情感转换

提出了一种新颖的情感语音转换方法，采用变分循环生成对抗网络（VC-GAN）在没有平行训练数据的情况下进行转换，并通过基本频率轮廓的生成模块进一步优化训练过程，可以实现高质量的情感转换语音的合成。

Jul, 2020

非平行情感语音转换

本文提出了一种非并行数据驱动的情感语音转换方法，通过学习两个分布之间的翻译模型而实现非并行训练，该方法在音频内容编码与情感编码空间中进行情感转换，实现了保留说话人身份和语言特征的情感相关特征转移。

Nov, 2018