本研究通过卷积神经网络从文本、视觉等多个角度提取特征,实现了情感分析和情绪识别,并取得了 10% 的性能提升。同时,我们还探讨了在多模态情感分析研究中经常被忽视的若干重要问题,如讲话者无关模型和模态重要性等,从而为今后的研究提出了新的基准,并展示了在执行此类任务时需要考虑的不同方面分析。
Jul, 2017
本文提出一种新的多模态情感分析方法,使用深度神经网络结合视觉分析和自然语言处理,旨在推断用户潜在的情感状态并且在社交网络中应用此方法实现自我报告的情感标签的预测,实验证明该模型的性能优于仅基于图像或文本的单独模型,并具有与情绪相关的合理词汇列表。
May, 2018
本研究提出了一种运用视觉和听觉模态的情感识别系统,其通过深度卷积神经网络提取语音特征,通过 50 层的深度残差网络提取视觉特征,并运用长短时记忆网络进行机器学习算法,通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测,明显优于传统的以听觉和视觉手工制作特征为基础的方法。
Apr, 2017
本文提出了一种使用卷积注意网络学习语音和文本数据之间隐藏表示的新方法,较之之前的表现更好,能更好地识别出 CMU-MOSEI 数据集中包含的来自语音和文本数据的情感。
本文提出了一种新颖的深度多模态框架,基于句子级别的口语语言预测人类情感,通过混合式的深度多模态结构从文本和音频中提取高级特征,再使用三层深度神经网络将所有特征融合起来进行训练,实现整个结构的最优全局微调,结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。
Feb, 2018
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
本论文提出了一种基于深度学习的方法,结合了文本和音频数据进行情绪分类,使用 SincNet 层提取音频特征,同时使用双向 RNN 和深度卷积神经网络提取文本特征,通过交叉注意力机制融合两种特征,在 IEMOCAP 数据集上取得了比现有方法更好的性能。
Sep, 2020
本文介绍了一种名为 Tensor Fusion Network 的新型模型,它通过学习语音、手势等多种动态因素,实现了对在线视频中语言、手势等多种情感信息的判断,同时还优于现有的多模态和单一模态情感分析方法。
本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构,其优于单模态基线,并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。
研究使用传统机器学习技术和深度神经网络模型在社交媒体文本数据中识别情绪,并构建一个双向长短记忆神经网络(BiLSTM)和双向门循环单元(BiGRU)的集成模型,其中 BiGRU 模型表现最佳,准确率达 87.53%。此结果将有助于开发一个可视化情绪波动的决策工具。
Feb, 2023