基于语音合成的小数据情感语音转换:两阶段序列到序列训练
本文调查了最近使用序列到序列模型进行情感语音转换的文章,从 6 个方面总结了它们的动机、训练策略、模型架构、数据集、模型输入和评估方法,并为研究人员提供了当前最先进技术的易于理解的概述,最后讨论了序列到序列情感语音转换的现有挑战。
Mar, 2022
本文提出一种使用多任务学习的语音转换器,该转换器使用基于 seq2seq 的文本到语音作为嵌入空间,旨在提高保留语言信息的能力。在韩国男性情感文本 - 语音数据集上进行的实验表明,多任务学习有助于在语音转换中保留语言内容。
Nov, 2019
本文介绍了一种利用深度双向长短期记忆网络和神经合成器来进行语音的情感转换,同时使用包含丰富语言信息的音素后验概率作为辅助输入特征,提高了转换效果的多目标情感转换架构 Multi-target EVC (MTEVC),并将条件 WaveNet 和基于流的 WaveNet (FloWaveNet) 神经合成器作为其核心部件,训练了这些神经合成器,并将语音库中的说话者信息以及情感信息定义为附加特征。实验结果的客观度量和主观评估验证了提出的 MTEVC 架构在情感语音转换方面的有效性。
Apr, 2020
本研究介绍了一种基于序列到序列模型的 Duration-Flexible 情感语音转换方法 (DurFlex-EVC),通过引入样式自编码器和单位对齐器,实现了同时建模音高和持续时间的并行语音生成,提高了转换的可靠性和效率,并通过跨注意机制使得包含语言和语外信息的自监督学习表示与各种情感进行同步,进一步通过样式自编码器对样式元素进行解耦和操作,经过主客观评估证明了该方法相较于现有模型在领域内的优越性。
Jan, 2024
本文提出了一种基于情感标签库的情感语音转换网络,可以控制输出语音的细粒度情感强度和情感表达能力,并将说话人风格从语言内容中解耦,并用连续的空间中的样式嵌入来编码说话人风格。
Jan, 2022
本文旨在解决情感语音转换领域的一个问题:将没有任何语音情感数据的说话人语音的情感样式从一种风格转换为另一种风格。通过使用双编码器和虚拟领域对偶策略,我们提出的方法在一定程度上解决了基于 GANS 的 EVC 的问题,而且在印地语情感语音数据库上进行了验证。
Feb, 2023
这篇论文介绍了一种新颖的语音转换(VC)模型,它由文本指令引导,比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同,我们的模型为语音转换增加了多样性和特定性。提出的 VC 模型是一种神经编解码语言模型,处理离散代码序列,生成转换语音的代码序列。它利用文本指令作为风格提示来修改给定语音的韵律和情感信息。与以往的方法相比,我们的模型以端到端的方式处理语音的各种信息,而不再依赖于使用不同的编码器来处理源语音的韵律和内容等不同方面。实验证明了我们的模型在理解指令并产生合理结果方面的令人印象深刻的能力。
Sep, 2023
本文提出了一个说话人无关的情感语音转换框架,该框架使用基于 VAW-GAN 的编码器 - 解码器结构和连续小波变换(CWT)来执行谱和韵律转换,还尝试使用 F0 作为解码器的附加输入来提高情感转换性能。实验结果表明,该框架在看到和未看到的说话人方面都可以获得有竞争力的结果。
May, 2020
该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法,利用双模态风格编码器以及新的风格损失函数,实现高质量的表达性语音合成。
Jul, 2022
通过研究不同的预训练模型、情感文本合成和数据增强方法,本文提出了一种提高语音情感识别效果的方法,实验结果表明该方法在 IEMOCAP 数据集上具有较高的效果。
Sep, 2023