提出了一种使用循环生成对抗网络和小波变换将非平行语音数据转化为伪对传递来完成情感音频转换,并通过分解基频到 10 个不同时间尺度进行有效的声调转换,实验结果表明,该框架在客观和主观评估中优于基准。
Feb, 2020
本文旨在解决情感语音转换领域的一个问题:将没有任何语音情感数据的说话人语音的情感样式从一种风格转换为另一种风格。通过使用双编码器和虚拟领域对偶策略,我们提出的方法在一定程度上解决了基于 GANS 的 EVC 的问题,而且在印地语情感语音数据库上进行了验证。
Feb, 2023
本文提出了一个说话人无关的情感语音转换框架,该框架使用基于 VAW-GAN 的编码器 - 解码器结构和连续小波变换(CWT)来执行谱和韵律转换,还尝试使用 F0 作为解码器的附加输入来提高情感转换性能。实验结果表明,该框架在看到和未看到的说话人方面都可以获得有竞争力的结果。
May, 2020
本文提出一种语音到语音的情感保留翻译方法,利用多语言情感嵌入技术来捕捉情感信息,并在英语和法语语音信号中验证了该方法的有效性。
Jun, 2023
提出了一种新颖的情感语音转换方法,采用变分循环生成对抗网络(VC-GAN)在没有平行训练数据的情况下进行转换,并通过基本频率轮廓的生成模块进一步优化训练过程,可以实现高质量的情感转换语音的合成。
Jul, 2020
本文提出一种基于潜在风格空间中的矢量算术方法的跨说话人情感转移和操纵研究,可以使用仅有的几个标记样本从阅读风格语音生成情感语音,并且情感强度可以轻松控制,保留了说话人的身份。实验结果表明这种方法在表达性、自然度和可控性方面具有优越性。
Mar, 2023
本文提出了一种基于 VAW-GAN 框架的转换情感语音的方法,通过使用预训练的语音情感识别模型来传递情感样式,使网络能够将已知和未知的情感样式转移到新的话语中,从而实现了出色的性能,并发布了一个情感语音数据集。
Oct, 2020
本文提出对现有方法进行改进,以应对来自非平行数据的文本属性转移,并在情感转移任务中使用两个数据集进行实验,结果显示在三个评估指标中,我们的方法都优于强基准线。
Nov, 2017
本文提出了一种方法,该方法使用自监督网络对话语的词汇、说话人和情绪内容进行解缠,并随后使用 HiFiGAN 回声消除器将解缠表示重新合成为目标情感的语音信号。
该文研究了语音情感识别中数据不足的问题,提出了一种称为 EmoAug 的情感样式转移模型,该模型可以用来增强音频数据的情感表达,包括应对数据不平衡的问题,实验表明该模型在提取语音情感特征方面的效果显著优于现有方法。
Nov, 2022