FSER: 用于语音情感识别的深度卷积神经网络
通过直接利用六个不同数据集的原始音频文件进行训练,本研究提出了一种模型用于识别情感,没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法,以及集成学习和深度学习技术进行评估,并与现有的方法进行比较。实验证明,使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率,从而成为了新的最先进方法。在说话人无关的音频分类问题中,该模型在 EMO-DB,RAVDESS,TESS 和 SAVEE 数据集上分别取得了 90.34%,90.42%,99.48% 和 85.76% 的准确率。
Jul, 2023
该研究通过对 Mel 谱图的谐波和打击性组成部分进行分析,提出了一个新的架构,包括特征映射生成器算法、基于 CNN 的网络特征提取器和多层感知器(MLP)分类器,研究有效的数据增强技术建立了丰富的混合特征映射,最终在 Berlin EMO-DB 数据库上取得了 92.79% 的测试准确率,结果优于之前使用 CNN-VGG16 的研究。
Dec, 2023
本文针对低资源语言,提出了一种语言特定的多预训练语音模型情感信息提取方法,设计了一种多领域模型,采用多门机制,并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构,并引入对比辅助损失来构建更可分离的音频数据表示。实验表明,该模型为德语和法语提高了 3%和 14.3%的准确率。
Oct, 2022
本研究利用各种深度学习和机器学习技术,通过对一个 Farsi/Persian 数据集的分析,研究了 Farsi 语言中的情感识别技术,取得了 65.20% 的 UA 和 78.29% 的 WA。
Apr, 2022
提出了一种新的双层模型,通过使用来自原始音频信号的 MFCC 特征和 mel-spectrograms 预测情感,其中一个标准 LSTM 处理 MFCC 特征,而一个新的双序列 LSTM 架构同时处理两个 mel-spectrograms,最终将输出平均,实现了在情感识别中的 6% 的提高。
Oct, 2019
在先进的人工智能和人机交互时代,识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用,提供了一个综合的解决方案,解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架,将现有的说话人分离流程与基于卷积神经网络(CNN)构建的情绪识别模型相结合,以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练,包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数(MFCC)、过零率(ZCR)、均方根(RMS)以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态,展示了出色的效率。
Oct, 2023
本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法,该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。
Apr, 2021
使用卷积神经网络(CNN) 对音频录音进行识别和情感标记,通过机器学习方法评估表情识别模型,并关注精确度、召回率和 F1 得分,以提高交流意图的识别能力。
Jun, 2024
该论文提出了一种卷积神经网络,基于多任务学习和基于语音特征的监督学习策略,旨在识别说话中的情感,结果最适合于语音情感识别的高度识别特征。
Jun, 2019