本论文提出了一种有效的情感控制方法,用于端到端的文本到语音(TTS)系统,使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。
Nov, 2019
通过引入细粒度情绪控制和音频分离模块来实现精确表达细致情绪状态的面部动画生成,有效控制情感表达并提高生成视频的表达变化和嘴唇同步性能。
Feb, 2024
本文提出了一种精细可控的情感语音生成模型,考虑到类间和类内距离,能够产生有较大情感区别的自然语音,实验证明该模型的可控性、情感表现力和自然度均优于两种现有的同类模型。
Mar, 2023
提出了一种基于 Tacotron 的新方法,通过引入情感分类器和样式损失,增强情感嵌入的区分能力,并通过控制情感嵌入的值,控制合成语音中的情感强度。实验结果表明,该方法合成的语音具有更高的准确性和表现力,并且情感强度的控制更加显著。
Nov, 2020
该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法,利用双模态风格编码器以及新的风格损失函数,实现高质量的表达性语音合成。
Jul, 2022
本研究提出一种新的情感文本转语音框架,通过量化不同情绪之间的差异,训练模型并控制模型在运行时生成所需的情感混合,实现了语音情感合成研究中的情感混合模拟。
Aug, 2022
该论文提出了一种新型的神经网络系统,用于情感文本转语音合成中的细粒度风格建模、转移和预测,该系统通过从音素水平的语音段的梅尔光谱图中提取风格嵌入来实现细粒度建模,并应用协作学习和对抗学习策略来实现内容和风格因素的有效区分。该系统不仅可以用于单个说话者情况下的不同内容的语音风格转移,还可以用于文本到语音合成,并在内容保留方面表现更好。
本文提出 QI-TTS,通过多风格提取器和相对属性,实现了表达问句意图和转移 emmotion 的精细化音调控制,实验证明了其在情感语音合成中改善语调表达效果的有效性。
提出一种新的基于感情梯度的细粒度情感改写任务,通过 fine-tuning 文本到文本的转换器进行多任务训练,对输入和目标文本进行细粒度情感标注,评估结果表明,将情感标签纳入改写任务可以显著提高获取所期望情感的高质量改写的几率,并在多个改写指标上达到更好的成绩。
Oct, 2022
该研究提出了一种利用时间结构的音调嵌入方法,实现对合成语音言语风格的精细控制,可在帧级别和音素级别改变合成语音的音高和振幅,并且通过嵌入的时间归一化得到更好的抵抗讲话风格扰动的鲁棒性。
Nov, 2018