EmoDiarize：使用卷积神经网络从语音信号中进行说话人分离和情绪识别

Oct, 2023

EmoDiarize：使用卷积神经网络从语音信号中进行说话人分离和情绪识别

EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks

Hanan Hamza, Fiza Gafoor, Fathima Sithara, Gayathri Anil, V. S. Anoop

TL;DR在先进的人工智能和人机交互时代，识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用，提供了一个综合的解决方案，解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架，将现有的说话人分离流程与基于卷积神经网络（CNN）构建的情绪识别模型相结合，以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练，包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数（MFCC）、过零率（ZCR）、均方根（RMS）以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态，展示了出色的效率。

Abstract

In the era of advanced artificial intelligence and human-computer interaction, identifying emotions in spoken language is paramount. This research explores the integration of deep learning techniques in speech emotion recognition, offering a comprehensive solution to the challenges ass

speech emotion recognition deep learning techniques speaker diarization emotion identification convolutional neural network

发现论文，激发创造

使用深度学习框架评估语音情感识别的原始波形

通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Jul, 2023

使用 CNN 的语音情感识别及其在数字化医疗中的应用案例

使用卷积神经网络（CNN) 对音频录音进行识别和情感标记，通过机器学习方法评估表情识别模型，并关注精确度、召回率和 F1 得分，以提高交流意图的识别能力。

Jun, 2024

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

AHD ConvNet 语音情绪分类

本文提出了一种新的基于孪生网络的 mel 频谱学习方法，用于从 CREMA-D 数据集中的 wav 形式的语音记录中学习情感，所提出的模型使用对数 mel - 频谱图作为特征，mels 数量为 64，在情感语音识别的问题上，相对于其他方法，本方法所需的训练时间更短。

Jun, 2022

从原始语音进行语音情感的直接建模

本文提出了一种基于并行卷积层的方法，在特征提取单元中利用多个时间分辨率来共同训练 LSTM 分类神经网络。该方法可用于处理原始语音数据的情感识别任务，并可以达到使用手工制作特征训练 CNN 的性能水平。

Apr, 2019

利用语音和文本的多模态语音情感识别

本文提出了一种深度双重循环编码器模型，利用语音和文本数据进行机器情感识别，该模型表现更优，实验结果显示，当将该模型应用于 IEMOCAP 数据集时，在将数据分配到四个情感类别（愤怒，高兴，悲伤和中性）方面，准确率在 68.8％至 71.8％之间。

Oct, 2018

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

运用机器学习算法检测口语中的情感表达

该研究使用 MATLAB 函数与机器学习模型分析人类语音中的声音特征，如谐波、周期性、频谱形状等，实现人类情感的识别。通过使用多个数据集进行训练，并对比测试，发现该模型优于现有类似作品。

Apr, 2023

用于语音和文本数据的多模态情感识别的卷积注意力网络

本文提出了一种使用卷积注意网络学习语音和文本数据之间隐藏表示的新方法，较之之前的表现更好，能更好地识别出 CMU-MOSEI 数据集中包含的来自语音和文本数据的情感。

May, 2018

对话中语音情感识别的分段特征表示的深度学习

本文针对会话中情绪识别的复杂性，提出了一种利用双向门控循环神经网络捕捉上下文相关性和说话人之间相互作用的对话情感识别方法。实验结果表明该方法比现有的最先进方法更为有效。

Feb, 2023