MOSI：网络观点视频中情感强度和客观性分析的多模态语料库

Jun, 2016

MOSI：网络观点视频中情感强度和客观性分析的多模态语料库

MOSI: Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos

Amir Zadeh, Rowan Zellers, Eli Pincus, Louis-Philippe Morency

TL;DR本文提出了第一个在线视频情感和主观分析的观点级标注语料库 Multimodal Opinion-level Sentiment Intensity dataset（MOSI），并介绍了一种新的多模态融合方法，共同建模口语和视觉手势。

Abstract

People are sharing their opinions, stories and reviews through online video sharing websites every day. Studying sentiment and subjectivity in these opinion videos is experiencing a growing attention from academia and industry. While →

online videos sentiment analysis annotated corpus multimodal fusion subjectivity

发现论文，激发创造

基于门控机制的多模态情感分析

本文讨论了多模态情感分析的三个方面：跨模态交互学习、多模态交互中的长期依赖性学习和一元和跨模态线索的融合，发现学习跨模态交互对解决该问题很有益。在两个基准数据集（CMU-MOSI 和 CMU-MOSEI 语料库）上进行实验，取得了 83.9％和 81.1％的准确率，分别比当前最先进技术提高了 1.6％和 1.34％的绝对精度。

Feb, 2020

MISA: 多模态情感分析的模态不变和模态特定表示

本文提出了一种基于 MISA 框架的多模态情感分析方法，该方法利用学习到的模态表示来帮助实现多模态信号的融合，从而提高任务预测的准确性。在多个情感分析基准数据集和 UR_FUNNY 数据集上，该方法表现出了明显的优越性，验证了其在多模态分析中的实用性。

May, 2020

融合音频、文本和视觉特征进行新闻视频情感分析

该论文提出了一种新颖的方法来执行新闻视频的情感分析，基于从内容中提取的音频、文字和视觉线索的融合。该方法旨在为构建媒体宇宙的 ethos（身份）的 semiodiscoursive 研究做出贡献，我们计算了从面部表情中识别出的视觉强度、参与者的声音调制、文本语音和情感得分（极性）。实验结果显示，该方法在情感分类任务中达到了高达 84％的准确度，因此在新闻界中具有极高的应用潜力。

Apr, 2016

从视觉和声音模态获取无文本情感的可扩展多模态情感分类

本文介绍了一种多模态融合模型，该模型专门使用高级视频和音频特征来分析口语句子的情感。该模型在 CMUMOSEI 数据集上进行了训练和测试，并获得了验证集上的 F1 得分 0.8049 和挑战测试集上的 F1 得分 0.6325。

Jul, 2018

多模态方法在视频评论的细粒度情感分析中的应用

本研究提出了一种多模态方法，从视频评论中挖掘细粒度意见，并且无需时间注释，利用音频、视频和语言转录的特征来确定评论中讨论的物品方面以及情感倾向。我们在两个数据集中验证了该方法，并表明利用视频和音频模态能够提高性能，从而更好地理解视频评论。

May, 2020

YouTube UGC 数据集的主观质量评估

研究使用众包平台收集用户主观评价数据，分析视频质量评估的各种维度，并调查全视频 MOS 及相应块的 MOS 之间的相关性，以及品质评分聚合中块变化的影响。

Feb, 2020

哥伦比亚 MVSO 图像情感数据集

本文介绍了基于 Amazon Mechanical Turk 作为众包平台，以英文 ANP 为例从 Multilingual Visual Sentiment Ontology 中获取图像情感数据集，目的是用于评估自动预测图像或 ANP 情感的系统的基准。

Nov, 2016

多模态情感分析的数据不一致性评估

多模态情感分析中的情感语义一致性是一个普遍存在的挑战，我们通过引入模态冲突的测试集评估传统的多模态情感分析模型和多模态大型语言模型的性能，发现传统模型在面对语义冲突数据时表现出显著的性能降低，并指出了多模态情感分析中多模态大型语言模型的缺点。我们的研究提出了一个新的挑战，并为情感分析系统的未来发展提供了宝贵的见解。

Jun, 2024

全球视觉情感：一个大规模多语言视觉情感本体论

该研究详细研究了文化和语言的独特性，特别是情感语义和情感在社交多媒体中的表现，并提出了一种基于多语言的新方法来自动发现情感构造。多语言视觉情感概念本体（MVSO）的创建是通过提出一种在社交多媒体平台上应用的类别聚类视觉检测名词和这些名词情感偏见版本的子聚类的方法来实现的，并展示了一个基于图像的预测任务以显示特定语言模型在多语言环境中的普适性。此外，该研究还发布了一个 >15.6K 跨 12 种语言的情感偏执视觉概念数据集以及对应的检测库和 >7.36M 张图像和元数据。

Aug, 2015

UniMSE: 统一多模态情感分析与情感识别

本文提出一种多模态情感知识共享框架（UniMSE），用于统一多模态情感分析（MSA）和对话中情绪识别（ERC）任务以 better capture the difference and consistency between sentiments and emotions by performing modality fusion at the syntactic and semantic levels and introducing contrastive learning between modalities and samples. 通过在四个公共测试数据集上的实验，展示了该方法的有效性并与最先进的方法进行了一致的改进。

Nov, 2022