情感语音合成的细粒度情感强度传输、控制和预测

Nov, 2020

情感语音合成的细粒度情感强度传输、控制和预测

Fine-grained Emotion Strength Transfer, Control and Prediction for Emotional Speech Synthesis

Yi Lei, Shan Yang, Lei Xie

TL;DR本文提出了一种用于序列到序列的细粒度情感语音合成的统一模型，通过学习到的排名函数引入音素级情感强度表示来描述本地情感细节，并采用句子级情感类别来呈现合成语音的全局情感。

Abstract

This paper proposes a unified model to conduct emotion transfer, control and prediction for sequence-to-sequence based fine-grained emotio

emotion transfer emotional speech synthesis fine-grained phoneme-level emotion strength representation sequence-to-sequence

发现论文，激发创造

情感演讲合成与丰富的精细控制

本论文提出了一种有效的情感控制方法，用于端到端的文本到语音（TTS）系统，使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。

Nov, 2019

EmoSpeaker：一次性精细情感控制的说话人脸生成

通过引入细粒度情绪控制和音频分离模块来实现精确表达细致情绪状态的面部动画生成，有效控制情感表达并提高生成视频的表达变化和嘴唇同步性能。

Feb, 2024

文本转语音的细粒度情感控制：学习排名类内和类间情感强度

本文提出了一种精细可控的情感语音生成模型，考虑到类间和类内距离，能够产生有较大情感区别的自然语音，实验证明该模型的可控性、情感表现力和自然度均优于两种现有的同类模型。

Mar, 2023

可控的情感转移用于端到端语音合成

提出了一种基于 Tacotron 的新方法，通过引入情感分类器和样式损失，增强情感嵌入的区分能力，并通过控制情感嵌入的值，控制合成语音中的情感强度。实验结果表明，该方法合成的语音具有更高的准确性和表现力，并且情感强度的控制更加显著。

Nov, 2020

神经 TTS 中的文本驱动情感风格控制与跨说话人风格转移

该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法，利用双模态风格编码器以及新的风格损失函数，实现高质量的表达性语音合成。

Jul, 2022

混合情感语音合成

本研究提出一种新的情感文本转语音框架，通过量化不同情绪之间的差异，训练模型并控制模型在运行时生成所需的情感混合，实现了语音情感合成研究中的情感混合模拟。

Aug, 2022

通过音素级内容 - 风格解耦实现文本转语音合成中的细粒度风格建模、转移和预测

该论文提出了一种新型的神经网络系统，用于情感文本转语音合成中的细粒度风格建模、转移和预测，该系统通过从音素水平的语音段的梅尔光谱图中提取风格嵌入来实现细粒度建模，并应用协作学习和对抗学习策略来实现内容和风格因素的有效区分。该系统不仅可以用于单个说话者情况下的不同内容的语音风格转移，还可以用于文本到语音合成，并在内容保留方面表现更好。

Nov, 2020

QI-TTS: 用于情感语音合成的问句语调控制

本文提出 QI-TTS，通过多风格提取器和相对属性，实现了表达问句意图和转移 emmotion 的精细化音调控制，实验证明了其在情感语音合成中改善语调表达效果的有效性。

Mar, 2023

情感梯度下的细粒度情感释义

提出一种新的基于感情梯度的细粒度情感改写任务，通过 fine-tuning 文本到文本的转换器进行多任务训练，对输入和目标文本进行细粒度情感标注，评估结果表明，将情感标签纳入改写任务可以显著提高获取所期望情感的高质量改写的几率，并在多个改写指标上达到更好的成绩。

Oct, 2022

端到端语音合成的鲁棒性和精细语调控制

该研究提出了一种利用时间结构的音调嵌入方法，实现对合成语音言语风格的精细控制，可在帧级别和音素级别改变合成语音的音高和振幅，并且通过嵌入的时间归一化得到更好的抵抗讲话风格扰动的鲁棒性。

Nov, 2018