一个面向细粒度情感分析的多层次韵律模型
为了提高端到端文本转语音(TTS)的自然程度和可理解性,本文提出了一种情感感知的韵律短语模型(EmoPP),准确挖掘话语的情感线索并预测适当的短语断点,并通过客观和主观评估证明 EmoPP 在情感表达能力方面优于所有基线模型,取得了显著的性能。音频样本和代码可在 https://github.com/AI-S2-Lab/EmoPP 获取。
Sep, 2023
利用多级语境信息,通过多任务学习解码器,本研究提出了一种改进语音生成自然性的方法,通过使用跨发话语之间的语言信息来预测韵律边界,从而在两个数据集上实现了更好的预测效果。
Aug, 2023
在这篇论文中,我们提出了一种基于结构模型的情感文本转语音设计,旨在模拟更广泛的情感谱系。我们的设计 Daisy-TTS 中加入了韵律编码器,以学习具有情感可分离性的韵律嵌入作为情感的代理。通过一系列的感知评估,与基准相比,Daisy-TTS 展示了更高的情感语音自然度和情感可感知性。
Feb, 2024
本文提出了一种用于序列到序列的细粒度情感语音合成的统一模型,通过学习到的排名函数引入音素级情感强度表示来描述本地情感细节,并采用句子级情感类别来呈现合成语音的全局情感。
Nov, 2020
本文提出一种新的多层次转换器模型,将细粒度表示和预训练的话语级别表示相结合,结合不同的方法将音素级别嵌入与单词级别嵌入相结合,从而进行细粒度的多模式情感识别,最终在 IEMOCAP 数据集上,我们的模型均优于之前的最优方法。
Oct, 2022
本文提出了一种新颖的深度多模态框架,基于句子级别的口语语言预测人类情感,通过混合式的深度多模态结构从文本和音频中提取高级特征,再使用三层深度神经网络将所有特征融合起来进行训练,实现整个结构的最优全局微调,结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。
Feb, 2018
本文提出了一种基于 BERT 和自注意力结构实现的基于跨度的汉语韵律结构预测模型,通过对所提供的语言学特征进行编码得到最优韵律结构树,再利用自下而上的 CKY 算法找到得分最高的韵律树,从而完成汉字转韵律标签的端到端预测,实验结果显示:该方法比所有基于序列到序列的基线方法都要优异。
Mar, 2022
设计并建立了一个包括发音运动学、声学、声门和面部微表情的多模态情感汉语数据库,描述了从语料库设计、被试选择、录音细节和数据处理等方面的详细信息。通过对维度注释数据的统计分析验证了维度注释的有效性。使用支持向量机、卷积神经网络和深度神经网络计算了这七种情感的识别率,结果显示仅使用声学数据识别七种情感的平均识别率约为 82%。因此,该数据库具有高质量,可用作重要的语音分析研究来源,特别是用于多模态情感语音分析任务。
Jan, 2024
提出了一种多尺度,多模态会话文本到语音系统(M2-CTTS),用于综合利用历史会话并增强韵律表达,通过考虑文本和声学因素的粗粒度和细粒度建模,并混合细粒度上下文信息及声学特征,实现了更好的韵律表现和自然度。
May, 2023