使用 CNN 的语音情感识别及其在数字化医疗中的应用案例
通过深度学习技术识别患者的情绪,可以在智能医疗中心建立起能够检测抑郁症和压力的机制,进而早期对患者进行干预。本文对情绪识别领域的最新研究进行了系统总结,并关注了从语音、面部表情和音视频输入中识别情绪的不同技术,并将这些算法部署于真实环境中,构成了一种适用于医疗中心的监控系统。在论文最后,我们总结了相关挑战和未来工作,以提供使用情绪识别技术的应用展望。
Jul, 2021
在先进的人工智能和人机交互时代,识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用,提供了一个综合的解决方案,解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架,将现有的说话人分离流程与基于卷积神经网络(CNN)构建的情绪识别模型相结合,以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练,包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数(MFCC)、过零率(ZCR)、均方根(RMS)以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态,展示了出色的效率。
Oct, 2023
本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法,该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。
Apr, 2021
本研究利用各种深度学习和机器学习技术,通过对一个 Farsi/Persian 数据集的分析,研究了 Farsi 语言中的情感识别技术,取得了 65.20% 的 UA 和 78.29% 的 WA。
Apr, 2022
本文提出了一种新的基于孪生网络的 mel 频谱学习方法,用于从 CREMA-D 数据集中的 wav 形式的语音记录中学习情感,所提出的模型使用对数 mel - 频谱图作为特征,mels 数量为 64,在情感语音识别的问题上,相对于其他方法,本方法所需的训练时间更短。
Jun, 2022
本文提出了一种基于并行卷积层的方法,在特征提取单元中利用多个时间分辨率来共同训练 LSTM 分类神经网络。该方法可用于处理原始语音数据的情感识别任务,并可以达到使用手工制作特征训练 CNN 的性能水平。
Apr, 2019
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
提出了一种通过增强语音感知能力来提升治疗聊天机器人对用户情绪理解和人性化回应的方法,该方法使用卷积神经网络(CNN)模型和 ShEMO 数据集的语音情感识别(SER)技术来准确检测和分类负面情绪,包括愤怒、恐惧和悲伤,并使用 SER 模型和 GloVe、LSTM 模型相结合的推荐系统生成个性化管理负面情绪的建议,同时将 GlowTTS 文本到语音模型整合到一起,使治疗聊天机器人能够用英语和波斯语将生成的建议以声音形式传达给用户,最终提高了英语和波斯语用户心理健康支持的交付效果。
Nov, 2023
通过直接利用六个不同数据集的原始音频文件进行训练,本研究提出了一种模型用于识别情感,没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法,以及集成学习和深度学习技术进行评估,并与现有的方法进行比较。实验证明,使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率,从而成为了新的最先进方法。在说话人无关的音频分类问题中,该模型在 EMO-DB,RAVDESS,TESS 和 SAVEE 数据集上分别取得了 90.34%,90.42%,99.48% 和 85.76% 的准确率。
Jul, 2023
情感计算是一门研究领域,专注于开发能够理解、解释和响应人类情感的系统和技术。本研究主要针对公开可用的情感标签数据集稀缺和不平衡的问题,通过合并这些数据集以及采用各种语音数据增强技术构建了一个均衡的语料库,并在语音情感识别方面尝试了不同的架构。最佳系统是一个多模态的语音和基于文本的模型,相对于基准算法的性能为 157.57(不加权准确度 + 加权准确度),而基准算法的性能为 119.66。
Dec, 2023