情感识别的多模态端到端稀疏模型

Mar, 2021

情感识别的多模态端到端稀疏模型

Multimodal End-to-End Sparse Model for Emotion Recognition

Wenliang Dai, Samuel Cahyawijaya, Zihan Liu, Pascale Fung

TL;DR本研究开发了一种完全的端到端模型，用于连接两个阶段并共同优化它们，以解决情感计算任务中现有两阶段流程的性能问题。同时我们引入了稀疏交叉模态注意机制来降低计算复杂度并在实验中证实其优越性。

Abstract

Existing works on multimodal affective computing tasks, such as emotion recognition, generally adopt a two-phase pipeline, first extracting feature representations for each single modality with hand-crafted algorithms and then performing →

multimodal affective computing end-to-end learning feature extraction sparse cross-modal attention performance

发现论文，激发创造

基于深度神经网络的端到端多模态情感识别

本研究提出了一种运用视觉和听觉模态的情感识别系统，其通过深度卷积神经网络提取语音特征，通过 50 层的深度残差网络提取视觉特征，并运用长短时记忆网络进行机器学习算法，通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测，明显优于传统的以听觉和视觉手工制作特征为基础的方法。

Apr, 2017

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018

基于注意力增强的端到端多任务学习在语音情感预测中的应用

本文提出了一种增强的端到端框架，通过学习其他辅助任务和关注机制来获取更加稳健和更好地共享表示，以缓解传统系统中由于有限训练数据而导致的过拟合问题，提高语音情感识别性能。

Mar, 2019

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

多任务多模态预测分类和维度情感

多任务学习在语音情绪识别中的应用与多模态系统和情绪范畴及情绪维度的预测相关，通过跨任务正则化和特征融合提高模型表现。

Dec, 2023

一种高效的端到端 Transformer 网络结构，基于渐进式三模态注意力机制用于多模态情感识别

本文提出了一种多模态端到端变形器（ME2ET）模型，通过引入渐进的三模态注意力和三模态特征融合层，成功地模拟了文本、声音和视觉模态之间低层和高层的交互，并在 CMU-MOSEI 和 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2022

探索应用于紧急呼叫中心语料库的多模态情感识别的注意力机制

本文探讨了基于 CEMO 数据集的语音和文本预训练模型在情感识别上的融合策略，研究表明基于多模态融合的交叉关注机制实现了更好的表现。同时，实验也表明在 CEMO 上，音频编码包含的情感信息比文本更为丰富。

Jun, 2023

多模态语音情感识别和歧义解析

本研究采用基于特征工程的方法来解决语音情感识别的问题，并通过提取八个手工特征，将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现，我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。

Apr, 2019

多模态条件注意力融合在情感维度预测中的应用

该研究提出了一种名为条件注意融合的新型多模态融合策略，将长短期记忆循环神经网络应用为基础单模态模型，自动决定分配给不同情感模态的权重，获得了在情感价值预测方面优于多种常见融合策略的实验结果。

Sep, 2017

基于语音的多模态情感识别中的学习对齐

本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法，以提高音频 - 文本多模态情感识别的准确性，并在 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2019