多模态深度学习在多模态情感识别中的应用

Feb, 2016

多模态深度学习在多模态情感识别中的应用

Multimodal Emotion Recognition Using Multimodal Deep Learning

Wei Liu, Wei-Long Zheng, Bao-Liang Lu

TL;DR采用多模态深度学习方法构建情感模型，通过单模态增强和多模态便利任务表现出较高的识别精度，同时在跨模态学习任务中证明了其有效性。

Abstract

To enhance the performance of affective models and reduce the cost of acquiring physiological signals for real-world applications, we adopt multi

multimodal deep learning physiological signals affective models deep autoencoder bimodal deep autoencoder

发现论文，激发创造

多模态深度面部表示的鲁棒人脸识别

本篇论文提出了一种使用多模式信息联合学习人脸表征的深度学习框架，该框架包括一组卷积神经网络和三层堆叠自动编码器，使用公开可用的数据集训练，取得了超过 99％的人脸识别率。

Sep, 2015

基于深度神经网络的端到端多模态情感识别

本研究提出了一种运用视觉和听觉模态的情感识别系统，其通过深度卷积神经网络提取语音特征，通过 50 层的深度残差网络提取视觉特征，并运用长短时记忆网络进行机器学习算法，通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测，明显优于传统的以听觉和视觉手工制作特征为基础的方法。

Apr, 2017

多模态掩蔽自编码器用于动态情绪识别

本文提出了一种名为多模态蒙特卡洛自动编码器（MultiMAE-DER）的处理多模态数据用于动态情感识别的新方法。MultiMAE-DER 利用视觉和音频模态之间的时空序列中紧密相关的表示信息。通过利用预训练的蒙特卡洛自动编码器模型，通过简单直接的微调实现 MultiMAE-DER。该方法通过优化六种多模态输入序列融合策略来提高 MultiMAE-DER 的性能，解决了跨域数据中的动态特征相关性问题。与现有的多模态监督学习模型相比，MultiMAE-DER 在 RAVDESS 数据集上的加权平均召回率（WAR）提高了 4.41％，在 CREMAD 上提高了 2.06％。此外，与多模态自监督学习的最新模型相比，MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86％。

Apr, 2024

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018

多模态情绪阅读器：预训练模型增强跨主体情绪识别

基于脑电图 (EEG) 的情绪识别引起了重要关注，在神经信号处理和情感计算等领域有了多样化的发展。然而，个体的独特脑解剖结构导致不可忽视的自然差异，在主题间情绪识别中存在挑战。为了克服这些限制，我们开发了一个基于预训练模型的多模式情绪识别器，利用脑信号建模和空间 - 时间注意机制来学习通用的脑电图表示，并在不同维度和模态中最大化功能的优势。广泛的公共数据集上的实验证明了情绪识别器在跨主题情绪识别任务中的卓越性能，优于现有方法。此外，该模型从注意力的角度进行了剖析，为神经信号处理领域的情感研究提供了有价值的洞察。

May, 2024

MMA-DFER: 适应多模态单模型的野外动态面部表情识别

探讨使用自我监督学习方法进行多模态动态面部表情识别的研究，并提出了解决该任务中的主要挑战以及相应解决方案，最终在 DFEW 和 MFAW 两个常用的动态面部表情识别基准数据集上实现了超过当前最先进方法的改进。

Apr, 2024

跨模态分布匹配的半监督多模态情感识别

提出了一种基于跨模态分布匹配的半监督多模态情感识别模型，该模型利用丰富的未标记数据增强模型训练，实验结果表明该模型能够有效地结合多模态并利用未标记数据提高情感识别性能，并在同等条件下优于其他最先进的方法。

Sep, 2020

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

EmoNets: 多模深度学习方法用于视频情感识别

本研究使用深度学习技术，以多模态方式，使用面部检测、音频流等模态，探索影片情感识别模型，成果在 2013 年的 EmotiW 挑战中成为获胜者，并在 2014 年的数据集上实现了约 47.67% 的准确率。

Mar, 2015

基于深度学习的情感识别数据增强技术比较研究

本文对情感识别中的流行深度学习方法进行了全面评估，发现语音信号中的长距离依赖对情感识别至关重要，而速率变换是获得最稳健性能提升的最佳数据扩增技术之一。

Nov, 2022