一个面向细粒度情感分析的多层次韵律模型

MMSep, 2023

一个面向细粒度情感分析的多层次韵律模型

A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion Analysis

Xianhao Wei, Jia Jia, Xiang Li, Zhiyong Wu, Ziyi Wang

TL;DR该研究通过从上下文级别的文本中预测适合的韵律特征，提出了一种多尺度文本韵律模型（D-MPM），该模型利用多尺度文本预测这些韵律特征，从而指导语音合成模型合成更具表现力的语音。

Abstract

This paper explores predicting suitable prosodic features for fine-grained emotion analysis from the discourse-level text. To obtain

prosodic features emotion analysis fine-grained speech synthesis text prosodic analysis

发现论文，激发创造

情感感知的韵律短语化对表达性文本转语音

为了提高端到端文本转语音（TTS）的自然程度和可理解性，本文提出了一种情感感知的韵律短语模型（EmoPP），准确挖掘话语的情感线索并预测适当的短语断点，并通过客观和主观评估证明 EmoPP 在情感表达能力方面优于所有基线模型，取得了显著的性能。音频样本和代码可在 https://github.com/AI-S2-Lab/EmoPP 获取。

Sep, 2023

多层次上下文信息提升普通话韵律结构预测

利用多级语境信息，通过多任务学习解码器，本研究提出了一种改进语音生成自然性的方法，通过使用跨发话语之间的语言信息来预测韵律边界，从而在两个数据集上实现了更好的预测效果。

Aug, 2023

Daisy-TTS: 通过韵律嵌入分解模拟更广泛情感频谱

在这篇论文中，我们提出了一种基于结构模型的情感文本转语音设计，旨在模拟更广泛的情感谱系。我们的设计 Daisy-TTS 中加入了韵律编码器，以学习具有情感可分离性的韵律嵌入作为情感的代理。通过一系列的感知评估，与基准相比，Daisy-TTS 展示了更高的情感语音自然度和情感可感知性。

Feb, 2024

情感语音合成的细粒度情感强度传输、控制和预测

本文提出了一种用于序列到序列的细粒度情感语音合成的统一模型，通过学习到的排名函数引入音素级情感强度表示来描述本地情感细节，并采用句子级情感类别来呈现合成语音的全局情感。

Nov, 2020

学习多语种表达性语音表示以进行无平行数据的韵律预测

本文提出一种语音到语音的情感保留翻译方法，利用多语言情感嵌入技术来捕捉情感信息，并在英语和法语语音信号中验证了该方法的有效性。

Jun, 2023

多模态情感识别的多级 Transformer

本文提出一种新的多层次转换器模型，将细粒度表示和预训练的话语级别表示相结合，结合不同的方法将音素级别嵌入与单词级别嵌入相结合，从而进行细粒度的多模式情感识别，最终在 IEMOCAP 数据集上，我们的模型均优于之前的最优方法。

Oct, 2022

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018

一个基于字级别跨度的汉语韵律结构预测模型

本文提出了一种基于 BERT 和自注意力结构实现的基于跨度的汉语韵律结构预测模型，通过对所提供的语言学特征进行编码得到最优韵律结构树，再利用自下而上的 CKY 算法找到得分最高的韵律树，从而完成汉字转韵律标签的端到端预测，实验结果显示：该方法比所有基于序列到序列的基线方法都要优异。

Mar, 2022

普通话多模态情感语音数据库的构建与评估

设计并建立了一个包括发音运动学、声学、声门和面部微表情的多模态情感汉语数据库，描述了从语料库设计、被试选择、录音细节和数据处理等方面的详细信息。通过对维度注释数据的统计分析验证了维度注释的有效性。使用支持向量机、卷积神经网络和深度神经网络计算了这七种情感的识别率，结果显示仅使用声学数据识别七种情感的平均识别率约为 82%。因此，该数据库具有高质量，可用作重要的语音分析研究来源，特别是用于多模态情感语音分析任务。

Jan, 2024

M2-CTTS: 端到端的多尺度、多模态会话文本到语音合成

提出了一种多尺度，多模态会话文本到语音系统（M2-CTTS），用于综合利用历史会话并增强韵律表达，通过考虑文本和声学因素的粗粒度和细粒度建模，并混合细粒度上下文信息及声学特征，实现了更好的韵律表现和自然度。

May, 2023