使用预训练的深度视觉模型进行情感语音识别

Apr, 2022

使用预训练的深度视觉模型进行情感语音识别

Emotional Speech Recognition with Pre-trained Deep Visual Models

Waleed Ragheb, Mehdi Mirzapour, Ali Delfardi, Hélène Jacquenet, Lawrence Carbon

TL;DR本文提出使用视觉深度神经网络模型进行情感语音识别的新方法，通过使用预先训练的计算机视觉深度模型的迁移学习能力，将声学特征转化为图像进行识别，并在 Berlin EMO-DB 数据集上进行实验，取得了新的最佳效果。

Abstract

In this paper, we propose a new methodology for emotional speech recognition using visual deep neural network models. We employ the transfer learning capabilities of the pre-trained computer vision deep models to

emotional speech recognition visual deep neural networks transfer learning acoustic features berlin emo-db dataset

发现论文，激发创造

使用 Wav2vec 2.0 嵌入进行语音情感识别

本文提出一种基于迁移学习的语音情感识别方法，将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模，并使用可训练的权重从多层模型中组合输出，在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明，在情感识别性能上优于现有文献中的结果。

Apr, 2021

使用深度学习框架评估语音情感识别的原始波形

通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Jul, 2023

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

基于深度神经网络的端到端多模态情感识别

本研究提出了一种运用视觉和听觉模态的情感识别系统，其通过深度卷积神经网络提取语音特征，通过 50 层的深度残差网络提取视觉特征，并运用长短时记忆网络进行机器学习算法，通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测，明显优于传统的以听觉和视觉手工制作特征为基础的方法。

Apr, 2017

利用预训练于大型人脸识别数据集上的卷积神经网络进行视频情感分类

本文提出了一种由多个利用卷积神经网络和大规模人脸识别数据集进行训练得到的强大行业级人脸识别网络组成的集成模型，该模型对视频中的空间和音频特征进行捕获，从而提高情绪识别的准确性，并在不使用视觉时间信息的情况下，将测试集的最佳结果提高了约 1％，实现了 60.03％的分类准确度。

Nov, 2017

基于深度学习的情感识别数据增强技术比较研究

本文对情感识别中的流行深度学习方法进行了全面评估，发现语音信号中的长距离依赖对情感识别至关重要，而速率变换是获得最稳健性能提升的最佳数据扩增技术之一。

Nov, 2022

对话中语音情感识别的分段特征表示的深度学习

本文针对会话中情绪识别的复杂性，提出了一种利用双向门控循环神经网络捕捉上下文相关性和说话人之间相互作用的对话情感识别方法。实验结果表明该方法比现有的最先进方法更为有效。

Feb, 2023

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018

深度音频嵌入在音乐情感识别中的比较与分析

本文研究深度音频嵌入技术对于音乐情感识别领域的应用，探讨了 L3-Net 和 VGGish 等深度音频嵌入方法在情感识别上的表现，结果表明这些方法可有效提高基线情感识别模型的性能，且不需要人工专家工程。

Apr, 2021

使用预训练转换器进行文本、语音和视频的多模态情绪识别

通过使用多模态感情识别方法和各种融合技术，本研究在 IEMOCAP 多模态数据集上实现了 75.42% 的准确率，主要关注多模态感情识别、自监督学习、迁移学习和 Transformer 模型。

Feb, 2024