非平行情感语音转换

Nov, 2018

Nonparallel Emotional Speech Conversion

Jian Gao, Deep Chakraborty, Hamidou Tembine, Olaitan Olaleye

TL;DR本文提出了一种非并行数据驱动的情感语音转换方法，通过学习两个分布之间的翻译模型而实现非并行训练，该方法在音频内容编码与情感编码空间中进行情感转换，实现了保留说话人身份和语言特征的情感相关特征转移。

Abstract

We propose a nonparallel data-driven emotional speech conversion method. It enables the transfer of emotion-related characteristics of a speech signal while preserving the speaker's identity and linguistic conten

speech conversion emotion transfer nonparallel data unsupervised learning latent space

发现论文，激发创造

使用非平行训练数据转换频谱和声调进行情感语音转换

提出了一种使用循环生成对抗网络和小波变换将非平行语音数据转化为伪对传递来完成情感音频转换，并通过分解基频到 10 个不同时间尺度进行有效的声调转换，实验结果表明，该框架在客观和主观评估中优于基准。

Feb, 2020

使用双领域对抗网络和虚拟对应进行非平行情感语音转换，对于未知说话者情感对

本文旨在解决情感语音转换领域的一个问题：将没有任何语音情感数据的说话人语音的情感样式从一种风格转换为另一种风格。通过使用双编码器和虚拟领域对偶策略，我们提出的方法在一定程度上解决了基于 GANS 的 EVC 的问题，而且在印地语情感语音数据库上进行了验证。

Feb, 2023

将任何人的情感转换为说话者无关的情感语音转换

本文提出了一个说话人无关的情感语音转换框架，该框架使用基于 VAW-GAN 的编码器 - 解码器结构和连续小波变换（CWT）来执行谱和韵律转换，还尝试使用 F0 作为解码器的附加输入来提高情感转换性能。实验结果表明，该框架在看到和未看到的说话人方面都可以获得有竞争力的结果。

May, 2020

学习多语种表达性语音表示以进行无平行数据的韵律预测

本文提出一种语音到语音的情感保留翻译方法，利用多语言情感嵌入技术来捕捉情感信息，并在英语和法语语音信号中验证了该方法的有效性。

Jun, 2023

利用深度生成混合网络和敌对对偶辨别器进行非并行情感转换

提出了一种新颖的情感语音转换方法，采用变分循环生成对抗网络（VC-GAN）在没有平行训练数据的情况下进行转换，并通过基本频率轮廓的生成模块进一步优化训练过程，可以实现高质量的情感转换语音的合成。

Jul, 2020

通过操作语音风格潜在因素进行跨说话人情感转移

本文提出一种基于潜在风格空间中的矢量算术方法的跨说话人情感转移和操纵研究，可以使用仅有的几个标记样本从阅读风格语音生成情感语音，并且情感强度可以轻松控制，保留了说话人的身份。实验结果表明这种方法在表达性、自然度和可控性方面具有优越性。

Mar, 2023

使用全新情感语音数据集实现可见和不可见情感风格转换的声音转换技术

本文提出了一种基于 VAW-GAN 框架的转换情感语音的方法，通过使用预训练的语音情感识别模型来传递情感样式，使网络能够将已知和未知的情感样式转移到新的话语中，从而实现了出色的性能，并发布了一个情感语音数据集。

Oct, 2020

改进的神经文本属性转移与非平行数据

本文提出对现有方法进行改进，以应对来自非平行数据的文本属性转移，并在情感转移任务中使用两个数据集进行实验，结果显示在三个评估指标中，我们的方法都优于强基准线。

Nov, 2017

基于解缠自监督表征和神经听觉合成器的自然环境语音情感转换

本文提出了一种方法，该方法使用自监督网络对话语的词汇、说话人和情绪内容进行解缠，并随后使用 HiFiGAN 回声消除器将解缠表示重新合成为目标情感的语音信号。

Jun, 2023

语音情感识别中的非监督语音风格转移数据增强

该文研究了语音情感识别中数据不足的问题，提出了一种称为 EmoAug 的情感样式转移模型，该模型可以用来增强音频数据的情感表达，包括应对数据不平衡的问题，实验表明该模型在提取语音情感特征方面的效果显著优于现有方法。

Nov, 2022