利用多模态场景信息的情感感知
在这篇研究论文中,我们使用最近的大型视觉语言模型来探讨两种主要方法:图像字幕生成与仅使用语言的 LLM,以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context(EMOTIC)数据集上评估这些方法,并展示出即使在小型数据集上进行微调,视觉语言模型的性能也能显著超过传统的基准方法。我们的研究结果旨在帮助未来的机器人和智能系统对情感进行敏感的决策和交互行为。
May, 2024
利用视觉和大规模语言模型(VLLMs)的开创性能力,我们提出了一种两阶段方法来增强上下文情绪分类,首先利用 VLLMs 生成自然语言描述主体与视觉情境之间的明显情绪,然后将这些描述与图像输入一起用于训练融合文本和视觉特征的基于变换器的结构,在不引入复杂训练方法的情况下显著优于单一模态,并且在 EMOTIC、CAER-S 和 BoLD 三个数据集上达到了与更复杂方法相媲美甚至更高的准确性。
Apr, 2024
通过图像的标题生成以及使用大型语言模型(LLMs)进行推理的方法,该论文探讨了 LLMs 是否可以支持上下文情感估计任务,并表明 GPT-3.5 模型在情感预测方面具有潜力。
Sep, 2023
本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构,其优于单模态基线,并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。
May, 2018
本文提出了一种多模态方法,结合分析面部运动和多个外部生理信号,通过考虑个体化休息动态来解码正负情感体验。通过构建人体特征循环网络,解码个体面部运动和生理数据的动态耦合关系,并在其基础上训练推理模型,将个体的情感体验进行预测和验证。
Nov, 2018
本文研究了从多个数据来源中学习识别和解释人类情感和主观信息的多模态情感计算问题,提出了一种基于 attention 机制和单词级融合的分层多模态体系结构,以从文本和音频数据中分类识别发言级别的情感和情绪。结果表明,该模型在现有数据集上表现优异。
May, 2018
本文提出了一种从图像中提取高级语境表示的方法,利用单个线索和单个编码流与情感相关联,并且该模型的执行效率比以前的模型更高,其在 EMOTIC 数据集上达到了 0.3002 的 mAP 并且能够在消费级硬件上以每秒大约 90 帧的速度执行,容易部署在解决与情感识别相关的现实问题中。
May, 2023
本文介绍一项研究,通过一个包含 85,007 张公开图片、526,749 个情感反应和自由文本解释的大规模数据集,探讨使用自然语言表达对给定视觉刺激的情感反应所引起的情绪反应。研究提出了三个问题来解决这个新任务,并介绍了一些方法和开源数据集。
Oct, 2022
在 Emotions in Context(EMOTIC)数据集上,评估了最近的大规模视觉语言模型(CLIP,LLaVA)和大语言模型(GPT-3.5)中嵌入的情绪常识知识。使用一组 872 个与 26 个情绪类别相关的物理社交信号描述和 224 个情绪显著环境背景描述构建了与情绪感知相关的 “叙述性字幕”,并评估了在图像 - 语言 - 情感任务中使用这些字幕的效果。零样本视觉语言模型的实验表明,结合 “快速” 和 “慢速” 推理是改进情绪识别系统的一种有前途的方法,但与在 EMOTIC 数据集上训练的以往研究相比,零样本情绪心理理论任务仍存在差距。
Oct, 2023
通过使用上下文化单词嵌入,我们可以捕捉人物形象中的情感维度,并比较男女形象的差异。虽然这些单词嵌入编码了有意义的情感信息,但受其训练数据的影响严重限制了它们的实用性。
Jun, 2019