Oct, 2023

情绪心理理论:快速视觉处理与缓慢语言推理的桥梁

TL;DR在 Emotions in Context(EMOTIC)数据集上,评估了最近的大规模视觉语言模型(CLIP,LLaVA)和大语言模型(GPT-3.5)中嵌入的情绪常识知识。使用一组 872 个与 26 个情绪类别相关的物理社交信号描述和 224 个情绪显著环境背景描述构建了与情绪感知相关的 “叙述性字幕”,并评估了在图像 - 语言 - 情感任务中使用这些字幕的效果。零样本视觉语言模型的实验表明,结合 “快速” 和 “慢速” 推理是改进情绪识别系统的一种有前途的方法,但与在 EMOTIC 数据集上训练的以往研究相比,零样本情绪心理理论任务仍存在差距。