FSER: 用于语音情感识别的深度卷积神经网络

ICCVSep, 2021

FSER: 用于语音情感识别的深度卷积神经网络

FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition

Bonaventure F. P. Dossou, Yeno K. S. Gbenou

TL;DR本文介绍了使用 mel 频谱图和卷积神经网络来对八种情绪分类的 FSER 模型，经过训练在四个语音数据库中达到了 95.05％的高分类准确率。FSER 在各个基准数据集上表现最好，达到了最新的技术水平。此外，我们还描述了如何使用 FSER 来改善心理和情感保健，并发现这项工作可以作为未来研究的参考和指导。

Abstract

Using mel-spectrograms over conventional MFCCs features, we assess the abilities of convolutional neural networks to accurately recognize and classify emotions from speech data. We introduce →

mel-spectrograms convolutional neural networks speech emotion recognition classification accuracy fser

发现论文，激发创造

使用深度学习框架评估语音情感识别的原始波形

通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Jul, 2023

在语音情感识别中使用谐振和打击成分的杠杆化 Mel 频谱图

该研究通过对 Mel 谱图的谐波和打击性组成部分进行分析，提出了一个新的架构，包括特征映射生成器算法、基于 CNN 的网络特征提取器和多层感知器（MLP）分类器，研究有效的数据增强技术建立了丰富的混合特征映射，最终在 Berlin EMO-DB 数据库上取得了 92.79% 的测试准确率，结果优于之前使用 CNN-VGG16 的研究。

Dec, 2023

多门机制与神经架构搜索的多语言语音情感识别

本文针对低资源语言，提出了一种语言特定的多预训练语音模型情感信息提取方法，设计了一种多领域模型，采用多门机制，并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构，并引入对比辅助损失来构建更可分离的音频数据表示。实验表明，该模型为德语和法语提高了 3％和 14.3％的准确率。

Oct, 2022

使用深度神经网络进行波斯语音情感识别

本研究利用各种深度学习和机器学习技术，通过对一个 Farsi/Persian 数据集的分析，研究了 Farsi 语言中的情感识别技术，取得了 65.20% 的 UA 和 78.29% 的 WA。

Apr, 2022

使用双序列 LSTM 架构的语音情感识别

提出了一种新的双层模型，通过使用来自原始音频信号的 MFCC 特征和 mel-spectrograms 预测情感，其中一个标准 LSTM 处理 MFCC 特征，而一个新的双序列 LSTM 架构同时处理两个 mel-spectrograms，最终将输出平均，实现了在情感识别中的 6% 的提高。

Oct, 2019

EmoDiarize：使用卷积神经网络从语音信号中进行说话人分离和情绪识别

在先进的人工智能和人机交互时代，识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用，提供了一个综合的解决方案，解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架，将现有的说话人分离流程与基于卷积神经网络（CNN）构建的情绪识别模型相结合，以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练，包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数（MFCC）、过零率（ZCR）、均方根（RMS）以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态，展示了出色的效率。

Oct, 2023

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

使用 CNN 的语音情感识别及其在数字化医疗中的应用案例

使用卷积神经网络（CNN) 对音频录音进行识别和情感标记，通过机器学习方法评估表情识别模型，并关注精确度、召回率和 F1 得分，以提高交流意图的识别能力。

Jun, 2024

利用中心损失和重建作为正则化器学习区分特征的语音情感识别

该论文提出了一种卷积神经网络，基于多任务学习和基于语音特征的监督学习策略，旨在识别说话中的情感，结果最适合于语音情感识别的高度识别特征。

Jun, 2019

无监督表示在语音情感识别中改善有监督学习

该研究提出了一种创新的方法，通过将自我监督特征提取与监督分类相结合，从较小的音频片段中识别情感，提高了人机交互的情感理解能力。

Sep, 2023