大型视觉语言模型的语境情感识别

May, 2024

大型视觉语言模型的语境情感识别

Contextual Emotion Recognition using Large Vision Language Models

Yasaman Etesam, Özge Nilay Yalçın, Chuxuan Zhang, Angelica Lim

TL;DR在这篇研究论文中，我们使用最近的大型视觉语言模型来探讨两种主要方法：图像字幕生成与仅使用语言的 LLM，以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context（EMOTIC）数据集上评估这些方法，并展示出即使在小型数据集上进行微调，视觉语言模型的性能也能显著超过传统的基准方法。我们的研究结果旨在帮助未来的机器人和智能系统对情感进行敏感的决策和交互行为。

Abstract

"How does the person in the bounding box feel?" Achieving human-level recognition of the apparent emotion of a person in real world situations remains an unsolved task in computer vision. Facial expressions are n

person in the bounding box emotion recognition computer vision vision language model emotions in context dataset

发现论文，激发创造

图像标题的情感背景评估

通过图像的标题生成以及使用大型语言模型（LLMs）进行推理的方法，该论文探讨了 LLMs 是否可以支持上下文情感估计任务，并表明 GPT-3.5 模型在情感预测方面具有潜力。

Sep, 2023

用常识推理提供更好的语境进行情感理解的 VLLMs

利用视觉和大规模语言模型（VLLMs）的开创性能力，我们提出了一种两阶段方法来增强上下文情绪分类，首先利用 VLLMs 生成自然语言描述主体与视觉情境之间的明显情绪，然后将这些描述与图像输入一起用于训练融合文本和视觉特征的基于变换器的结构，在不引入复杂训练方法的情况下显著优于单一模态，并且在 EMOTIC、CAER-S 和 BoLD 三个数据集上达到了与更复杂方法相媲美甚至更高的准确性。

Apr, 2024

情绪心理理论：快速视觉处理与缓慢语言推理的桥梁

在 Emotions in Context（EMOTIC）数据集上，评估了最近的大规模视觉语言模型（CLIP，LLaVA）和大语言模型（GPT-3.5）中嵌入的情绪常识知识。使用一组 872 个与 26 个情绪类别相关的物理社交信号描述和 224 个情绪显著环境背景描述构建了与情绪感知相关的 “叙述性字幕”，并评估了在图像 - 语言 - 情感任务中使用这些字幕的效果。零样本视觉语言模型的实验表明，结合 “快速” 和 “慢速” 推理是改进情绪识别系统的一种有前途的方法，但与在 EMOTIC 数据集上训练的以往研究相比，零样本情绪心理理论任务仍存在差距。

Oct, 2023

基于语境的情感识别：使用 EMOTIC 数据集

本研究提出一个多元感情图像数据集 EMOTIC，并通过 bounding box 、场景语境等方法训练多种卷积神经网络模型，结果表明场景语境对自动识别情感状态提供了重要信息，为情感识别领域的研究提供了新思路。

Mar, 2020

利用多模态场景信息的情感感知

利用预训练视觉语言模型从图像中提取前景环境描述，并结合其他多元素素进行情感预测，在自然环境和电视秀等数据集中取得了可行的结果。

Mar, 2023

图像情感识别的高层次语境表示

本文提出了一种从图像中提取高级语境表示的方法，利用单个线索和单个编码流与情感相关联，并且该模型的执行效率比以前的模型更高，其在 EMOTIC 数据集上达到了 0.3002 的 mAP 并且能够在消费级硬件上以每秒大约 90 帧的速度执行，容易部署在解决与情感识别相关的现实问题中。

May, 2023

对话 LLM：面向情感识别的对话中的上下文和情感知识调整的 LLaMA 模型

使用多模态信息、上下文和情感知识调整的对话型大型语言模型 (DialogueLLM)，通过对 13,638 个多模态（文本和视频）情感对话进行微调，克服了大型语言模型在情感识别方面的局限性，并在三个基准情感对话识别数据集上进行了全面评估。

Oct, 2023

使用大型语言模型进行对话中的情感识别

本研究探索大型语言模型 (LLMs) 在对话中识别人类情感方面的能力，重点关注开放领域闲聊对话和任务导向对话，并通过评估和比较 LLMs 在情感识别方面的性能，利用 IEMOCAP、EmoWOZ 和 DAIC-WOZ 三个不同数据集进行研究，从非零样本和少样本学习以及任务特定微调的角度探索 LLMs 的模型容量，并考虑了自动语音识别 (ASR) 错误对 LLM 预测的潜在影响。通过本研究，我们旨在阐明 LLMs 在对话中能够模拟人类情感识别能力的程度。

Sep, 2023

重塑情绪识别建模：广义大模型的出现

综合研究了大语言模型在情感识别中的性能，包括上下文学习、少样本学习、准确性、泛化能力和解释性，并提供了一些见解和潜在挑战，以促进情感识别在新的先进和广义大模型时代的发展。

Aug, 2023

利用大型语言模型建模情绪与伦理

本文探讨了如何将类人情感和伦理考虑整合到大型语言模型（LLM）中，并通过协作式 LLM 对八种基本人类情感进行建模，以及通过自我监督学习算法与人类反馈指导在 LLM 中嵌入潜在的伦理维度。利用该方法，LLMs 能够进行自我评估和调整以符合伦理准则，并提高其生成与情感共鸣和伦理一致的内容的能力。所提出的方法和案例研究展示了 LLMs 超越纯文本和图像生成，进入共情互动和有原则决策领域的潜力，并在情感意识和伦理意识的 AI 系统发展中树立了新的范例。

Apr, 2024