从视觉和声音模态获取无文本情感的可扩展多模态情感分类

ACLJul, 2018

从视觉和声音模态获取无文本情感的可扩展多模态情感分类

Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities

Nathaniel Blanchard, Daniel Moreira, Aparna Bharati, Walter J. Scheirer

TL;DR本文介绍了一种多模态融合模型，该模型专门使用高级视频和音频特征来分析口语句子的情感。该模型在 CMUMOSEI 数据集上进行了训练和测试，并获得了验证集上的 F1 得分 0.8049 和挑战测试集上的 F1 得分 0.6325。

Abstract

In the last decade, video blogs (vlogs) have become an extremely popular method through which people express sentiment. The ubiquitousness of these videos has increased the importance of multimodal fusion models,

vlogs multimodal fusion models sentiment detection video and audio features cmumosei dataset

发现论文，激发创造

融合音频、文本和视觉特征进行新闻视频情感分析

该论文提出了一种新颖的方法来执行新闻视频的情感分析，基于从内容中提取的音频、文字和视觉线索的融合。该方法旨在为构建媒体宇宙的 ethos（身份）的 semiodiscoursive 研究做出贡献，我们计算了从面部表情中识别出的视觉强度、参与者的声音调制、文本语音和情感得分（极性）。实验结果显示，该方法在情感分类任务中达到了高达 84％的准确度，因此在新闻界中具有极高的应用潜力。

Apr, 2016

多模态情感分析基准测试

本研究通过卷积神经网络从文本、视觉等多个角度提取特征，实现了情感分析和情绪识别，并取得了 10% 的性能提升。同时，我们还探讨了在多模态情感分析研究中经常被忽视的若干重要问题，如讲话者无关模型和模态重要性等，从而为今后的研究提出了新的基准，并展示了在执行此类任务时需要考虑的不同方面分析。

Jul, 2017

使用视觉、音频和文本特征进行多模态话语级情感分析

本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构，其优于单模态基线，并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。

May, 2018

基于层次融合和上下文建模的多模态情感分析

本论文提出了一种新的特征融合策略并应用在情感分析中，该策略通过分层融合两种模态，然后再将其与第三种模态融合，在个别话语的情感分析和视频剪辑的情感分析中均取得了优异的效果。

Jun, 2018

基于大规模语言模型的可解释的多模态情感分析

本研究提出了一种新方法，将非语言模态转化为文本描述，并使用大规模语言模型进行情感预测，从而提高情感分析的可解释性。在两个情感分析任务上的实验结果表明，该方法在维持或甚至提高了情感分析的效率的同时，使解释更为直接。

May, 2023

为预训练语言模型整合非语言线索而文本化多模态信息

本文研究了如何将非语言性特征（例如视觉和听觉）转化为对应的文本描述，并将其与口头文本结合，从而将多模态信息整合到基于文本的预训练大语言模型中。我们称此方法为 TextMI，并在情感、幽默和讽刺检测等多个下游任务中进行了 fine-tune，取得了令人满意的性能，因此提出将 TextMI 作为低资源环境下多模态行为分析任务的通用、有竞争力的基准。

Mar, 2023

多模态情感分析中的遗漏模态：一种知识迁移方法

提出了一种新颖的知识传递网络来在不同的感知模式之间进行翻译以重构缺失的音频模式，并且采用了跨模态注意机制以保留重构和观察到的模态的最大信息，用于情感预测。通过对三个公开数据集进行大量实验证明，相较于基线方法实现了显著的改进，并在完全多模态监督方面取得了与之前方法相当的结果。

Dec, 2023

语言作为媒介：通过仅文本进行多模态视频分类

通过利用大型语言模型（如 GPT-3.5 或 Llama2）的广泛知识，结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述，我们提出了一种新的模型不可知方法，用于生成捕捉多模态视频信息的详细文本描述。我们的评估结果表明，这种基于文本描述的方法在视频理解任务中取得了成功，为多模态分类提供了一个有前景的新研究方向。

Sep, 2023

基于门控机制的多模态情感分析

本文讨论了多模态情感分析的三个方面：跨模态交互学习、多模态交互中的长期依赖性学习和一元和跨模态线索的融合，发现学习跨模态交互对解决该问题很有益。在两个基准数据集（CMU-MOSI 和 CMU-MOSEI 语料库）上进行实验，取得了 83.9％和 81.1％的准确率，分别比当前最先进技术提高了 1.6％和 1.34％的绝对精度。

Feb, 2020

情感分析中的多特征和多模态补充融合

该论文提出了一种基于音频和文本的多模态情感分析方法，使用多特征融合和多模态融合策略进行深层特征融合，通过实验证明了该方法在多个情感分析数据集上的有效性和优越性。

Apr, 2019