对话中语音情感识别的分段特征表示的深度学习

Feb, 2023

对话中语音情感识别的分段特征表示的深度学习

deep learning of segment-level feature representation for speech emotion recognition in conversations

Jiachen Luo, Huy Phan, Joshua Reiss

TL;DR本文针对会话中情绪识别的复杂性，提出了一种利用双向门控循环神经网络捕捉上下文相关性和说话人之间相互作用的对话情感识别方法。实验结果表明该方法比现有的最先进方法更为有效。

Abstract

Accurately detecting emotions in conversation is a necessary yet challenging task due to the complexity of emotions and dynamics in dialogues. The emotional state of a speaker can be influenced by many different factors, such as interlocutor stimulus, dialogue scene, and topic. In this

emotion recognition conversation speech context-sensitive information recurrent neural networks

发现论文，激发创造

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

利用语音和文本的多模态语音情感识别

本文提出了一种深度双重循环编码器模型，利用语音和文本数据进行机器情感识别，该模型表现更优，实验结果显示，当将该模型应用于 IEMOCAP 数据集时，在将数据分配到四个情感类别（愤怒，高兴，悲伤和中性）方面，准确率在 68.8％至 71.8％之间。

Oct, 2018

使用预训练的深度视觉模型进行情感语音识别

本文提出使用视觉深度神经网络模型进行情感语音识别的新方法，通过使用预先训练的计算机视觉深度模型的迁移学习能力，将声学特征转化为图像进行识别，并在 Berlin EMO-DB 数据集上进行实验，取得了新的最佳效果。

Apr, 2022

应急呼叫中心对话中基于多尺度上下文学习的语音情绪识别

对话情感识别中，多尺度对话语境学习方法应用于紧急呼叫录音的文本方式可以增强性能，但融入声学语境更具挑战性。

Aug, 2023

HiGRU: 层次化门控循环单元用于话语级情感识别

本文提出了一种基于层次化门控循环单元的框架，解决了对话系统中表述级情感识别面临的诸多挑战，包括同一词汇在不同上下文中可能带有不同情感、一些情感在一般对话中很少出现以及难以捕捉到长程的上下文信息等，通过在底层 GRU 模型对词汇级输入进行建模，然后在上层 GRU 模型中捕捉表述级嵌入的上下文信息来解决这些挑战，并且进一步提出了 HiGRU-f 和 HiGRU-sf 两种变体来更好地利用词 / 表述级别的信息和长程上下文信息，并在三个对话情感数据集上进行了实验，结果表明我们提出的 HiGRU 模型在每个数据集上都至少比现有的最先进方法提高了 6.0％的效果。

Apr, 2019

使用深度学习框架评估语音情感识别的原始波形

通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Jul, 2023

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018

EmoDiarize：使用卷积神经网络从语音信号中进行说话人分离和情绪识别

在先进的人工智能和人机交互时代，识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用，提供了一个综合的解决方案，解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架，将现有的说话人分离流程与基于卷积神经网络（CNN）构建的情绪识别模型相结合，以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练，包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数（MFCC）、过零率（ZCR）、均方根（RMS）以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态，展示了出色的效率。

Oct, 2023

从原始语音进行语音情感的直接建模

本文提出了一种基于并行卷积层的方法，在特征提取单元中利用多个时间分辨率来共同训练 LSTM 分类神经网络。该方法可用于处理原始语音数据的情感识别任务，并可以达到使用手工制作特征训练 CNN 的性能水平。

Apr, 2019