AHD ConvNet 语音情绪分类
使用卷积神经网络(CNN) 对音频录音进行识别和情感标记,通过机器学习方法评估表情识别模型,并关注精确度、召回率和 F1 得分,以提高交流意图的识别能力。
Jun, 2024
在先进的人工智能和人机交互时代,识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用,提供了一个综合的解决方案,解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架,将现有的说话人分离流程与基于卷积神经网络(CNN)构建的情绪识别模型相结合,以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练,包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数(MFCC)、过零率(ZCR)、均方根(RMS)以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态,展示了出色的效率。
Oct, 2023
本文介绍了使用具有多视角学习目标函数的关注卷积神经网络进行语音情感识别的实验研究,对比了不同输入信号长度、不同类型的声学特征和不同类型的情感语音 (即兴 / 编剧) 对系统表现的影响,结果显示,除了输入特征选择外,模型的性能强烈依赖于语音数据类型,进一步实现了 IEMOCAP 上即兴语音数据的最优结果。
Jun, 2017
通过直接利用六个不同数据集的原始音频文件进行训练,本研究提出了一种模型用于识别情感,没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法,以及集成学习和深度学习技术进行评估,并与现有的方法进行比较。实验证明,使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率,从而成为了新的最先进方法。在说话人无关的音频分类问题中,该模型在 EMO-DB,RAVDESS,TESS 和 SAVEE 数据集上分别取得了 90.34%,90.42%,99.48% 和 85.76% 的准确率。
Jul, 2023
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
该研究使用 MATLAB 函数与机器学习模型分析人类语音中的声音特征,如谐波、周期性、频谱形状等,实现人类情感的识别。通过使用多个数据集进行训练,并对比测试,发现该模型优于现有类似作品。
Apr, 2023
本研究提出了一种运用视觉和听觉模态的情感识别系统,其通过深度卷积神经网络提取语音特征,通过 50 层的深度残差网络提取视觉特征,并运用长短时记忆网络进行机器学习算法,通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测,明显优于传统的以听觉和视觉手工制作特征为基础的方法。
Apr, 2017
本研究采用基于特征工程的方法来解决语音情感识别的问题,并通过提取八个手工特征,将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现,我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。
Apr, 2019
本文对情感识别中的流行深度学习方法进行了全面评估,发现语音信号中的长距离依赖对情感识别至关重要,而速率变换是获得最稳健性能提升的最佳数据扩增技术之一。
Nov, 2022
本文提出了一种使用卷积注意网络学习语音和文本数据之间隐藏表示的新方法,较之之前的表现更好,能更好地识别出 CMU-MOSEI 数据集中包含的来自语音和文本数据的情感。
May, 2018