使用多跳注意力机制的语音情感识别

Apr, 2019

使用多跳注意力机制的语音情感识别

Speech Emotion Recognition Using Multi-hop Attention Mechanism

Seunghyun Yoon, Seokhyun Byun, Subhadeep Dey, Kyomin Jung

TL;DR该论文提出了一种利用音频和文本信息的语音情感分类方法，使用双向 LSTM 和多跳注意力机制，在 IEMOCAP 数据集上，相对于现有技术，其在加权准确率上提高了 6.5% 的性能。

Abstract

In this paper, we are interested in exploiting textual and acoustic data of an utterance for the speech emotion classification task. The baseline approach models the information from audio and text independently using two deep neural networks (DNNs). The outputs from both the DNNs are

speech emotion classification deep neural networks blstm attention mechanism iemocap dataset

发现论文，激发创造

基于 Co-Attention 的多层声学信息的语音情感识别

本文提出了一种使用新设计的共同关注机制和多层声学信息的端到端语音情感识别系统。这个系统将 MFCC、谱图和嵌入了高水平声学信息的 CNN、BiLSTM 和 wav2vec2 等多层声学信息提取出来，并使用共同关注机制融合提取出来的多模态输入。在 IEMOCAP 数据集上进行的实验表明，我们的模型具有与两种不同的跨验证策略相竞争的性能。

Mar, 2022

基于注意力机制的多模态情感识别融合

本论文提出了一种基于深度学习的方法，结合了文本和音频数据进行情绪分类，使用 SincNet 层提取音频特征，同时使用双向 RNN 和深度卷积神经网络提取文本特征，通过交叉注意力机制融合两种特征，在 IEMOCAP 数据集上取得了比现有方法更好的性能。

Sep, 2020

基于语音的多模态情感识别中的学习对齐

本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法，以提高音频 - 文本多模态情感识别的准确性，并在 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2019

利用语音和文本的多模态语音情感识别

本文提出了一种深度双重循环编码器模型，利用语音和文本数据进行机器情感识别，该模型表现更优，实验结果显示，当将该模型应用于 IEMOCAP 数据集时，在将数据分配到四个情感类别（愤怒，高兴，悲伤和中性）方面，准确率在 68.8％至 71.8％之间。

Oct, 2018

用于语音和文本数据的多模态情感识别的卷积注意力网络

本文提出了一种使用卷积注意网络学习语音和文本数据之间隐藏表示的新方法，较之之前的表现更好，能更好地识别出 CMU-MOSEI 数据集中包含的来自语音和文本数据的情感。

May, 2018

一个用于双模态情感分类的简单基于注意力机制

在本文中，我们提出了基于双模态深度学习结构和注意力机制的情感分类方法，使用文本和语音数据进行训练和测试，并报告了不同结构的详细细节和性能分析结果。研究结果表明，使用不同类型数据（文本和语音）训练的深度学习结构优于仅使用文本或语音训练的结构，并且我们提出的基于注意力机制的双模态结构在情感分类中优于现有的系统。

Jun, 2024

HCAM -- 多模态情感识别的层级交叉关注模型

本文提出了一种基于 HCAM 方法的跨模态情绪识别模型，使用神经网络模型组合音频和文本数据，在 IEMOCAP、MELD 和 CMU-MOSI 三个数据集上达到了最先进的结果。

Apr, 2023

基于注意力增强的端到端多任务学习在语音情感预测中的应用

本文提出了一种增强的端到端框架，通过学习其他辅助任务和关注机制来获取更加稳健和更好地共享表示，以缓解传统系统中由于有限训练数据而导致的过拟合问题，提高语音情感识别性能。

Mar, 2019

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018

语音情感识别的实证研究与改进

本文提出了一种通过视角损失来改进的多模态语音情感识别模型，通过融合音频和文本信息来提高多模态任务的性能表现，在 IEMOCAP 数据集上获得了最新的最佳表现。

Apr, 2023