基于深度多模态学习的口语情感识别

Feb, 2018

基于深度多模态学习的口语情感识别

Deep Multimodal Learning for Emotion Recognition in Spoken Language

Yue Gu, Shuhong Chen, Ivan Marsic

TL;DR本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Abstract

In this paper, we present a novel deep multimodal framework to predict human emotions based on sentence-level spoken language. Our architecture has two distinctive characteristics. First, it extracts the high-lev

deep multimodal framework sentence-level spoken language emotion prediction feature extraction iemocap

发现论文，激发创造

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

基于语音的多模态情感识别中的学习对齐

本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法，以提高音频 - 文本多模态情感识别的准确性，并在 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2019

利用语音和文本的多模态语音情感识别

本文提出了一种深度双重循环编码器模型，利用语音和文本数据进行机器情感识别，该模型表现更优，实验结果显示，当将该模型应用于 IEMOCAP 数据集时，在将数据分配到四个情感类别（愤怒，高兴，悲伤和中性）方面，准确率在 68.8％至 71.8％之间。

Oct, 2018

使用预训练转换器进行文本、语音和视频的多模态情绪识别

通过使用多模态感情识别方法和各种融合技术，本研究在 IEMOCAP 多模态数据集上实现了 75.42% 的准确率，主要关注多模态感情识别、自监督学习、迁移学习和 Transformer 模型。

Feb, 2024

语音情感识别的实证研究与改进

本文提出了一种通过视角损失来改进的多模态语音情感识别模型，通过融合音频和文本信息来提高多模态任务的性能表现，在 IEMOCAP 数据集上获得了最新的最佳表现。

Apr, 2023

使用视觉、音频和文本特征进行多模态话语级情感分析

本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构，其优于单模态基线，并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。

May, 2018

多模态语音情感识别和歧义解析

本研究采用基于特征工程的方法来解决语音情感识别的问题，并通过提取八个手工特征，将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现，我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。

Apr, 2019

多模态情感分析基准测试

本研究通过卷积神经网络从文本、视觉等多个角度提取特征，实现了情感分析和情绪识别，并取得了 10% 的性能提升。同时，我们还探讨了在多模态情感分析研究中经常被忽视的若干重要问题，如讲话者无关模型和模态重要性等，从而为今后的研究提出了新的基准，并展示了在执行此类任务时需要考虑的不同方面分析。

Jul, 2017

多任务多模态预测分类和维度情感

多任务学习在语音情绪识别中的应用与多模态系统和情绪范畴及情绪维度的预测相关，通过跨任务正则化和特征融合提高模型表现。

Dec, 2023

多模态情感识别和情感分析的多任务学习

本文介绍了一个深度多任务学习框架，通过上下文级别的视听注意力机制来同时进行情感和表情分析，并在 CMU-MOSEI 数据集上达到了新的最佳性能。

May, 2019