本研究通过卷积神经网络从文本、视觉等多个角度提取特征,实现了情感分析和情绪识别,并取得了 10% 的性能提升。同时,我们还探讨了在多模态情感分析研究中经常被忽视的若干重要问题,如讲话者无关模型和模态重要性等,从而为今后的研究提出了新的基准,并展示了在执行此类任务时需要考虑的不同方面分析。
Jul, 2017
本文介绍了一种多模态融合模型,该模型专门使用高级视频和音频特征来分析口语句子的情感。该模型在 CMUMOSEI 数据集上进行了训练和测试,并获得了验证集上的 F1 得分 0.8049 和挑战测试集上的 F1 得分 0.6325。
Jul, 2018
本论文提出了一种新的特征融合策略并应用在情感分析中,该策略通过分层融合两种模态,然后再将其与第三种模态融合,在个别话语的情感分析和视频剪辑的情感分析中均取得了优异的效果。
Jun, 2018
该论文提出了一种新颖的方法来执行新闻视频的情感分析,基于从内容中提取的音频、文字和视觉线索的融合。该方法旨在为构建媒体宇宙的 ethos(身份)的 semiodiscoursive 研究做出贡献,我们计算了从面部表情中识别出的视觉强度、参与者的声音调制、文本语音和情感得分(极性)。实验结果显示,该方法在情感分类任务中达到了高达 84%的准确度,因此在新闻界中具有极高的应用潜力。
Apr, 2016
通过提出一种基于 Transformer 的新型融合方法 TransModality,本文在多个多模态数据集上验证,得出其在多模态情感分析任务中有着比其他融合方法更好的性能。
Sep, 2020
本文介绍了一种名为 Tensor Fusion Network 的新型模型,它通过学习语音、手势等多种动态因素,实现了对在线视频中语言、手势等多种情感信息的判断,同时还优于现有的多模态和单一模态情感分析方法。
该论文提出了一种用于多模态情感检测的对比学习和多层融合(CLMLF)方法,通过对文本和图像进行隐藏表征编码,设计了两个对比学习任务,标签对比学习和数据对比学习,有助于模型学习多模态数据中与情感相关的共同特征。在公开数据集上进行的大量实验证明了该方法与现有方法相比,在多模态情感检测方面具有很好的效果。
Apr, 2022
本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构,其优于单模态基线,并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。
May, 2018
本文介绍了一个深度多任务学习框架,通过上下文级别的视听注意力机制来同时进行情感和表情分析,并在 CMU-MOSEI 数据集上达到了新的最佳性能。
May, 2019
本研究提出了一种新方法,将非语言模态转化为文本描述,并使用大规模语言模型进行情感预测,从而提高情感分析的可解释性。在两个情感分析任务上的实验结果表明,该方法在维持或甚至提高了情感分析的效率的同时,使解释更为直接。
May, 2023