基于 Co-Attention 的多层声学信息的语音情感识别

Mar, 2022

基于 Co-Attention 的多层声学信息的语音情感识别

Speech Emotion Recognition with Co-Attention based Multi-level Acoustic Information

Heqing Zou, Yuke Si, Chen Chen, Deepu Rajan, Eng Siong Chng

TL;DR本文提出了一种使用新设计的共同关注机制和多层声学信息的端到端语音情感识别系统。这个系统将 MFCC、谱图和嵌入了高水平声学信息的 CNN、BiLSTM 和 wav2vec2 等多层声学信息提取出来，并使用共同关注机制融合提取出来的多模态输入。在 IEMOCAP 数据集上进行的实验表明，我们的模型具有与两种不同的跨验证策略相竞争的性能。

Abstract

speech emotion recognition (SER) aims to help the machine to understand human's subjective emotion from only audio information. However, extracting and utilizing comprehensive in-depth audio information is still a challenging task. In this paper, we propose an end-to-end →

speech emotion recognition acoustic information co-attention mechanism multimodal inputs iemocap dataset

发现论文，激发创造

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

使用多跳注意力机制的语音情感识别

该论文提出了一种利用音频和文本信息的语音情感分类方法，使用双向 LSTM 和多跳注意力机制，在 IEMOCAP 数据集上，相对于现有技术，其在加权准确率上提高了 6.5% 的性能。

Apr, 2019

基于语音的多模态情感识别中的学习对齐

本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法，以提高音频 - 文本多模态情感识别的准确性，并在 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2019

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

基于多任务学习和多模态动态融合网络的语音情感识别

本文提出了一种多模态多任务学习的情感识别方法，包括文本和声学模态的早期融合和自我注意力，使用动态融合网络用于语音编码器，得到了目前最先进的性能结果。

Mar, 2022

多门机制与神经架构搜索的多语言语音情感识别

本文针对低资源语言，提出了一种语言特定的多预训练语音模型情感信息提取方法，设计了一种多领域模型，采用多门机制，并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构，并引入对比辅助损失来构建更可分离的音频数据表示。实验表明，该模型为德语和法语提高了 3％和 14.3％的准确率。

Oct, 2022

多语言不可见说话人情感识别的探索：在多任务学习中利用共注意线索

本研究关注于多语言语音情感识别中未见过的说话者，引入了 CAMuLeNet 这一新颖的架构，通过共同注意力融合和多任务学习解决了这一问题，并在多个基准数据集上对预训练的 Whisper、HuBERT、Wav2Vec2.0 和 WavLM 进行基于说话者排除的交叉验证，同时发布了一个针对印地语的新颖数据集 BhavVani。根据交叉验证策略，CAMuLeNet 在未见过的说话者上显示出平均约 8% 的改进。

Jun, 2024

使用双序列 LSTM 架构的语音情感识别

提出了一种新的双层模型，通过使用来自原始音频信号的 MFCC 特征和 mel-spectrograms 预测情感，其中一个标准 LSTM 处理 MFCC 特征，而一个新的双序列 LSTM 架构同时处理两个 mel-spectrograms，最终将输出平均，实现了在情感识别中的 6% 的提高。

Oct, 2019

情感导向的自动语音识别预训练，增强语音情感识别

提出了一种新颖的多任务预训练方法，用于语音情感识别，在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练，生成目标情感分类的方法，通过公开数据训练的文本情感模型，将声学 ASR 模型更加 “情感感知”，最终在情感注释语音数据上进行了微调，达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数（CCC）0.41。

Jan, 2022

利用语音和文本的多模态语音情感识别

本文提出了一种深度双重循环编码器模型，利用语音和文本数据进行机器情感识别，该模型表现更优，实验结果显示，当将该模型应用于 IEMOCAP 数据集时，在将数据分配到四个情感类别（愤怒，高兴，悲伤和中性）方面，准确率在 68.8％至 71.8％之间。

Oct, 2018