Oct, 2023

EmoDiarize:使用卷积神经网络从语音信号中进行说话人分离和情绪识别

TL;DR在先进的人工智能和人机交互时代,识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用,提供了一个综合的解决方案,解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架,将现有的说话人分离流程与基于卷积神经网络(CNN)构建的情绪识别模型相结合,以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练,包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数(MFCC)、过零率(ZCR)、均方根(RMS)以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态,展示了出色的效率。