MFHCA：通过多空间融合和分层合作注意力增强语音情感识别

Apr, 2024

MFHCA：通过多空间融合和分层合作注意力增强语音情感识别

MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative Attention

Xinxin Jiao, Liejun Wang, Yinfeng Yu

TL;DR使用多空间融合和分层协同注意力的 MFHCA 新方法用于语音情感识别，通过识别情感相关光谱图区域和整合高级声学信息，从不同听觉层面合并特征，实验表明该方法有效。

Abstract

speech emotion recognition is crucial in human-computer interaction, but extracting and using emotional cues from audio poses challenges. This paper introduces mfhca, a novel method for →

speech emotion recognition mfhca multi-spatial fusion hierarchical cooperative attention spectrograms

发现论文，激发创造

多角度融合结构搜索模拟人类认知的情感识别

本研究提出了一种多个视角融合框架，旨在解决语音情感识别中的多维感知问题，并能自动调整信息融合策略。通过利用连续模型和量化模型的优势，实现全面捕捉语音情感信息。

Jun, 2023

基于 Co-Attention 的多层声学信息的语音情感识别

本文提出了一种使用新设计的共同关注机制和多层声学信息的端到端语音情感识别系统。这个系统将 MFCC、谱图和嵌入了高水平声学信息的 CNN、BiLSTM 和 wav2vec2 等多层声学信息提取出来，并使用共同关注机制融合提取出来的多模态输入。在 IEMOCAP 数据集上进行的实验表明，我们的模型具有与两种不同的跨验证策略相竞争的性能。

Mar, 2022

HCAM -- 多模态情感识别的层级交叉关注模型

本文提出了一种基于 HCAM 方法的跨模态情绪识别模型，使用神经网络模型组合音频和文本数据，在 IEMOCAP、MELD 和 CMU-MOSI 三个数据集上达到了最先进的结果。

Apr, 2023

利用分层注意策略和词级对齐的多模态情感分析

本文研究了从多个数据来源中学习识别和解释人类情感和主观信息的多模态情感计算问题，提出了一种基于 attention 机制和单词级融合的分层多模态体系结构，以从文本和音频数据中分类识别发言级别的情感和情绪。结果表明，该模型在现有数据集上表现优异。

May, 2018

基于语音的多模态情感识别中的学习对齐

本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法，以提高音频 - 文本多模态情感识别的准确性，并在 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2019

基于多模态协作变压器和混合特征重建的强鲁棒情感识别

多模情感识别是情感计算的重要方面，本文提出了一种统一框架 Modality-Collaborative Transformer with Hybrid Feature Reconstruction (MCT-HFR) 来解决构建不对齐多模特征的联合表示的效率和随机模态特征缺失引起的性能下降的挑战，并在两个广泛应用的基准数据集上获得了优于先进基准模型的结果。

Dec, 2023

语音情感识别的实证研究与改进

本文提出了一种通过视角损失来改进的多模态语音情感识别模型，通过融合音频和文本信息来提高多模态任务的性能表现，在 IEMOCAP 数据集上获得了最新的最佳表现。

Apr, 2023

基于互相交叉注意机制的特征融合用于 EEG 情绪识别

我们提出了一种名为 Mutual-Cross-Attention（MCA）的新颖有效的特征融合机制，结合特殊定制的 3D 卷积神经网络（3D-CNN），该方法巧妙地发现了 EEG 数据中时域和频域特征之间的互补关系，并且通过新设计的 Channel-PSD-DE 3D 特征在 DEAP 数据集上获得了 99.49%（愉悦度）和 99.30%（唤醒度）的准确率。

Jun, 2024

基于多任务学习和多模态动态融合网络的语音情感识别

本文提出了一种多模态多任务学习的情感识别方法，包括文本和声学模态的早期融合和自我注意力，使用动态融合网络用于语音编码器，得到了目前最先进的性能结果。

Mar, 2022

使用多跳注意力机制的语音情感识别

该论文提出了一种利用音频和文本信息的语音情感分类方法，使用双向 LSTM 和多跳注意力机制，在 IEMOCAP 数据集上，相对于现有技术，其在加权准确率上提高了 6.5% 的性能。

Apr, 2019