使用深度学习框架评估语音情感识别的原始波形

Jul, 2023

使用深度学习框架评估语音情感识别的原始波形

Evaluating raw waveforms with deep learning frameworks for speech emotion recognition

Zeynep Hilal Kilimci, Ulku Bayraktar, Ayhan Kucukmanisa

TL;DR通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Abstract

speech emotion recognition is a challenging task in speech processing field. For this reason, feature extraction process has a crucial importance to demonstrate and process the speech signals. In this work, we re

speech emotion recognition feature extraction deep neural networks machine learning algorithms state-of-the-art

发现论文，激发创造

从原始语音进行语音情感的直接建模

本文提出了一种基于并行卷积层的方法，在特征提取单元中利用多个时间分辨率来共同训练 LSTM 分类神经网络。该方法可用于处理原始语音数据的情感识别任务，并可以达到使用手工制作特征训练 CNN 的性能水平。

Apr, 2019

EmoDiarize：使用卷积神经网络从语音信号中进行说话人分离和情绪识别

在先进的人工智能和人机交互时代，识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用，提供了一个综合的解决方案，解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架，将现有的说话人分离流程与基于卷积神经网络（CNN）构建的情绪识别模型相结合，以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练，包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数（MFCC）、过零率（ZCR）、均方根（RMS）以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态，展示了出色的效率。

Oct, 2023

基于深度学习的情感识别数据增强技术比较研究

本文对情感识别中的流行深度学习方法进行了全面评估，发现语音信号中的长距离依赖对情感识别至关重要，而速率变换是获得最稳健性能提升的最佳数据扩增技术之一。

Nov, 2022

基于语音的情感识别特征选择增强和特征空间可视化

本研究提出使用增强策略来提升语音情感识别的准确性，并使用两个数据集验证其有效性，比基准研究识别率分别提高了 11.5％和 13.8％。

Aug, 2022

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

多模态语音情感识别和歧义解析

本研究采用基于特征工程的方法来解决语音情感识别的问题，并通过提取八个手工特征，将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现，我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。

Apr, 2019

使用预训练的深度视觉模型进行情感语音识别

本文提出使用视觉深度神经网络模型进行情感语音识别的新方法，通过使用预先训练的计算机视觉深度模型的迁移学习能力，将声学特征转化为图像进行识别，并在 Berlin EMO-DB 数据集上进行实验，取得了新的最佳效果。

Apr, 2022

基于深度神经网络的端到端多模态情感识别

本研究提出了一种运用视觉和听觉模态的情感识别系统，其通过深度卷积神经网络提取语音特征，通过 50 层的深度残差网络提取视觉特征，并运用长短时记忆网络进行机器学习算法，通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测，明显优于传统的以听觉和视觉手工制作特征为基础的方法。

Apr, 2017

运用机器学习算法检测口语中的情感表达

该研究使用 MATLAB 函数与机器学习模型分析人类语音中的声音特征，如谐波、周期性、频谱形状等，实现人类情感的识别。通过使用多个数据集进行训练，并对比测试，发现该模型优于现有类似作品。

Apr, 2023

使用 Wav2vec 2.0 嵌入进行语音情感识别

本文提出一种基于迁移学习的语音情感识别方法，将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模，并使用可训练的权重从多层模型中组合输出，在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明，在情感识别性能上优于现有文献中的结果。

Apr, 2021