MFHCA:通过多空间融合和分层合作注意力增强语音情感识别
本研究提出了一种多个视角融合框架,旨在解决语音情感识别中的多维感知问题,并能自动调整信息融合策略。通过利用连续模型和量化模型的优势,实现全面捕捉语音情感信息。
Jun, 2023
本文提出了一种使用新设计的共同关注机制和多层声学信息的端到端语音情感识别系统。这个系统将 MFCC、谱图和嵌入了高水平声学信息的 CNN、BiLSTM 和 wav2vec2 等多层声学信息提取出来,并使用共同关注机制融合提取出来的多模态输入。在 IEMOCAP 数据集上进行的实验表明,我们的模型具有与两种不同的跨验证策略相竞争的性能。
Mar, 2022
本文提出了一种基于 HCAM 方法的跨模态情绪识别模型,使用神经网络模型组合音频和文本数据,在 IEMOCAP、MELD 和 CMU-MOSI 三个数据集上达到了最先进的结果。
Apr, 2023
本文研究了从多个数据来源中学习识别和解释人类情感和主观信息的多模态情感计算问题,提出了一种基于 attention 机制和单词级融合的分层多模态体系结构,以从文本和音频数据中分类识别发言级别的情感和情绪。结果表明,该模型在现有数据集上表现优异。
May, 2018
本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法,以提高音频 - 文本多模态情感识别的准确性,并在 IEMOCAP 数据集上取得了最先进的性能。
Sep, 2019
多模情感识别是情感计算的重要方面,本文提出了一种统一框架 Modality-Collaborative Transformer with Hybrid Feature Reconstruction (MCT-HFR) 来解决构建不对齐多模特征的联合表示的效率和随机模态特征缺失引起的性能下降的挑战,并在两个广泛应用的基准数据集上获得了优于先进基准模型的结果。
Dec, 2023
本文提出了一种通过视角损失来改进的多模态语音情感识别模型,通过融合音频和文本信息来提高多模态任务的性能表现,在 IEMOCAP 数据集上获得了最新的最佳表现。
Apr, 2023
我们提出了一种名为 Mutual-Cross-Attention(MCA)的新颖有效的特征融合机制,结合特殊定制的 3D 卷积神经网络(3D-CNN),该方法巧妙地发现了 EEG 数据中时域和频域特征之间的互补关系,并且通过新设计的 Channel-PSD-DE 3D 特征在 DEAP 数据集上获得了 99.49%(愉悦度)和 99.30%(唤醒度)的准确率。
Jun, 2024
本文提出了一种多模态多任务学习的情感识别方法,包括文本和声学模态的早期融合和自我注意力,使用动态融合网络用于语音编码器,得到了目前最先进的性能结果。
Mar, 2022
该论文提出了一种利用音频和文本信息的语音情感分类方法,使用双向 LSTM 和多跳注意力机制,在 IEMOCAP 数据集上,相对于现有技术,其在加权准确率上提高了 6.5% 的性能。
Apr, 2019