情感识别的多模态端到端稀疏模型
本研究提出了一种运用视觉和听觉模态的情感识别系统,其通过深度卷积神经网络提取语音特征,通过 50 层的深度残差网络提取视觉特征,并运用长短时记忆网络进行机器学习算法,通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测,明显优于传统的以听觉和视觉手工制作特征为基础的方法。
Apr, 2017
本文提出了一种新颖的深度多模态框架,基于句子级别的口语语言预测人类情感,通过混合式的深度多模态结构从文本和音频中提取高级特征,再使用三层深度神经网络将所有特征融合起来进行训练,实现整个结构的最优全局微调,结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。
Feb, 2018
本文提出了一种增强的端到端框架,通过学习其他辅助任务和关注机制来获取更加稳健和更好地共享表示,以缓解传统系统中由于有限训练数据而导致的过拟合问题,提高语音情感识别性能。
Mar, 2019
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
本文提出了一种多模态端到端变形器(ME2ET)模型,通过引入渐进的三模态注意力和三模态特征融合层,成功地模拟了文本、声音和视觉模态之间低层和高层的交互,并在 CMU-MOSEI 和 IEMOCAP 数据集上取得了最先进的性能。
Sep, 2022
本文探讨了基于 CEMO 数据集的语音和文本预训练模型在情感识别上的融合策略,研究表明基于多模态融合的交叉关注机制实现了更好的表现。同时,实验也表明在 CEMO 上,音频编码包含的情感信息比文本更为丰富。
Jun, 2023
本研究采用基于特征工程的方法来解决语音情感识别的问题,并通过提取八个手工特征,将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现,我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。
Apr, 2019
该研究提出了一种名为条件注意融合的新型多模态融合策略,将长短期记忆循环神经网络应用为基础单模态模型,自动决定分配给不同情感模态的权重,获得了在情感价值预测方面优于多种常见融合策略的实验结果。
Sep, 2017
本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法,以提高音频 - 文本多模态情感识别的准确性,并在 IEMOCAP 数据集上取得了最先进的性能。
Sep, 2019