情感模仿预测的单模态多任务融合
本文介绍了解决情感模仿强度(EMI)估计挑战的方法,该挑战是第六届野外情感行为分析竞赛(ABAW)的一部分。EMI 估计挑战任务旨在通过从预定义的情绪类别(即 “崇拜”,“娱乐”,“决心”,“共情痛苦”,“兴奋” 和 “喜悦”)中评估它们来评估种子视频的情感强度。
Mar, 2024
该研究探讨了多模态情感识别问题,提出了使用迁移学习的方法,结合各种预训练模型和多级融合方法,以及多粒度特征提取的框架,从而在 IEMOCAP 数据集上取得了比最佳基线法高 1.3%的性能表现。
Jul, 2022
这篇研究通过在两种模态数据上使用预训练模型进行微调,使用 K 层多头注意机制进行下游融合,设计两种辅助任务以提高情感识别的表现,相比其他最先进的模型在 IEMOCAP 数据集上实现了更好的性能。
Feb, 2023
本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构,其优于单模态基线,并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。
May, 2018
本研究使用德语说话者的 Ulm-TSST 数据集,通过使用音频 - 视觉记录和生物信号特征来预测情绪唤醒和价值评估的水平,利用 LSTM 和自我注意机制来捕捉其复杂的时序依赖关系,并借助迟到融合策略进一步提高其识别性能。
Oct, 2021
本文提出一种基于迁移学习的语音情感识别方法,将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模,并使用可训练的权重从多层模型中组合输出,在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明,在情感识别性能上优于现有文献中的结果。
Apr, 2021
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
本文提出了一种新颖的深度多模态框架,基于句子级别的口语语言预测人类情感,通过混合式的深度多模态结构从文本和音频中提取高级特征,再使用三层深度神经网络将所有特征融合起来进行训练,实现整个结构的最优全局微调,结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。
Feb, 2018
本文通过使用卷积神经网络改进面部描述符,并探索多种融合方法,建立并优化 CNN 架构,解决情感分类问题,获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性,达到了 58.8%。
Sep, 2017
本文介绍了一种利用多模态融合和预训练模型特征相结合的方法,用于处理表情识别和情绪评估任务,通过对预训练模型提取特征并进行预处理、插值或卷积等操作,并应用不同模型进行多模态融合,达到在多模态任务中出色性能的目的。
Mar, 2024