基于语境的情感识别:使用 EMOTIC 数据集
在这篇研究论文中,我们使用最近的大型视觉语言模型来探讨两种主要方法:图像字幕生成与仅使用语言的 LLM,以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context(EMOTIC)数据集上评估这些方法,并展示出即使在小型数据集上进行微调,视觉语言模型的性能也能显著超过传统的基准方法。我们的研究结果旨在帮助未来的机器人和智能系统对情感进行敏感的决策和交互行为。
May, 2024
本文提出了一种从图像中提取高级语境表示的方法,利用单个线索和单个编码流与情感相关联,并且该模型的执行效率比以前的模型更高,其在 EMOTIC 数据集上达到了 0.3002 的 mAP 并且能够在消费级硬件上以每秒大约 90 帧的速度执行,容易部署在解决与情感识别相关的现实问题中。
May, 2023
通过引入一个新的大型数据集 VEATIC,作者提出了一个新的计算机视觉任务来推断每个视频帧中选择角色的情感,同时提出了一个简单的模型来评估这个任务,并与其他类似数据集的性能进行比较,实验证明了 VEATIC 的泛化能力。
Sep, 2023
EmotiCon 是一个基于学习的算法,用于从视频和图片中识别上下文感知的人类情感。该算法利用多种模态,自注意力卷积神经网络以及深度图模型识别情感,提高了对 EMOTIC 和 GroupWalk 数据集中情感进行识别的准确率。
Mar, 2020
提出了一种利用场景和语义特征的多模态情绪识别方法,通过结合人物特征和环境上下文,使用 EmbraceNet 提取图像特征,并在 EMOTIC 数据集上验证了方法的有效性。
Aug, 2023
我们引入了 FindingEmo,一个新的图像数据集,包含对 2.5 万张图片的注释,专门用于情绪识别。与现有数据集相反,它专注于描绘多个人物在各种自然、社交环境中的复杂场景,注释是整体进行的,超越了传统对人脸或单个人的关注。注释的维度包括情感价值、情感激动和情绪标签,使用 Prolific 收集注释。除了注释,我们还发布了指向原始图片的 URL 列表,以及所有相关的源代码。
Feb, 2024
本文介绍了 K-EmoCon 数据集,该数据集支持从多个角度评估社交互动中的持续情感,并包括音频 / 视觉记录、EEG 和外围生理信号等多模态测量。
May, 2020
在 Emotions in Context(EMOTIC)数据集上,评估了最近的大规模视觉语言模型(CLIP,LLaVA)和大语言模型(GPT-3.5)中嵌入的情绪常识知识。使用一组 872 个与 26 个情绪类别相关的物理社交信号描述和 224 个情绪显著环境背景描述构建了与情绪感知相关的 “叙述性字幕”,并评估了在图像 - 语言 - 情感任务中使用这些字幕的效果。零样本视觉语言模型的实验表明,结合 “快速” 和 “慢速” 推理是改进情绪识别系统的一种有前途的方法,但与在 EMOTIC 数据集上训练的以往研究相比,零样本情绪心理理论任务仍存在差距。
Oct, 2023
机器学习在视觉情感识别方面的应用具有很大的潜力,但目前的方法针对有限的视觉情感概念局限于小规模数据集上进行模型训练和测试。我们的分析确定了现有视觉情感基准测试中存在的一个长期被忽视的问题,即数据集偏见。基于我们的分析,我们提出了一个基于 Webly 监督方法的解决方案,通过利用大量的库存图像数据进行训练。我们发现,使用我们的大规模图像数据集学习的模型表现出了明显更好的泛化能力。此外,使用我们的方法学习得到的视觉表示在不同的图像和视频数据集上具有很大的潜力。
Aug, 2018
利用大型语言模型的表达能力,为输入文本合成额外的上下文,以增加其与带有注释的情感标签的关联性。通过提出文本上下文的形式化定义,并使用提示策略增强这种上下文信息,我们通过人工评估和实证评估证明了我们的方法改善了输入和人工注释标签之间的关联性。
Nov, 2023