用常识推理提供更好的语境进行情感理解的 VLLMs

Apr, 2024

用常识推理提供更好的语境进行情感理解的 VLLMs

VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning

Alexandros Xenos, Niki Maria Foteinopoulou, Ioanna Ntinou, Ioannis Patras, Georgios Tzimiropoulos

TL;DR利用视觉和大规模语言模型（VLLMs）的开创性能力，我们提出了一种两阶段方法来增强上下文情绪分类，首先利用 VLLMs 生成自然语言描述主体与视觉情境之间的明显情绪，然后将这些描述与图像输入一起用于训练融合文本和视觉特征的基于变换器的结构，在不引入复杂训练方法的情况下显著优于单一模态，并且在 EMOTIC、CAER-S 和 BoLD 三个数据集上达到了与更复杂方法相媲美甚至更高的准确性。

Abstract

Recognising emotions in context involves identifying the apparent emotions of an individual, taking into account contextual cues from the surrounding scene. Previous approaches to this task have involved the desi

emotions in context contextual cues vision-and-large-language models in-context emotion classification transformer-based architecture

发现论文，激发创造

大型视觉语言模型的语境情感识别

在这篇研究论文中，我们使用最近的大型视觉语言模型来探讨两种主要方法：图像字幕生成与仅使用语言的 LLM，以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context（EMOTIC）数据集上评估这些方法，并展示出即使在小型数据集上进行微调，视觉语言模型的性能也能显著超过传统的基准方法。我们的研究结果旨在帮助未来的机器人和智能系统对情感进行敏感的决策和交互行为。

May, 2024

图像标题的情感背景评估

通过图像的标题生成以及使用大型语言模型（LLMs）进行推理的方法，该论文探讨了 LLMs 是否可以支持上下文情感估计任务，并表明 GPT-3.5 模型在情感预测方面具有潜力。

Sep, 2023

对话 LLM：面向情感识别的对话中的上下文和情感知识调整的 LLaMA 模型

使用多模态信息、上下文和情感知识调整的对话型大型语言模型 (DialogueLLM)，通过对 13,638 个多模态（文本和视频）情感对话进行微调，克服了大型语言模型在情感识别方面的局限性，并在三个基准情感对话识别数据集上进行了全面评估。

Oct, 2023

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

利用多模态场景信息的情感感知

利用预训练视觉语言模型从图像中提取前景环境描述，并结合其他多元素素进行情感预测，在自然环境和电视秀等数据集中取得了可行的结果。

Mar, 2023

EmoLLM：多模态情感理解与大型语言模型

通过引入 EmoBench 和 EmoLLM，基于多模态大型语言模型的多模态情感理解性能得到显著提升，提供了更深入、更细致的人类情感理解，为人机交互、心理健康支持和共情人工智能系统等领域的应用开发提供了可能。

Jun, 2024

LLMs 作为视觉解释器：通过演变的视觉描述推进图像分类

将视觉语言模型（VLMs）与大型语言模型（LLMs）相结合的迭代优化与视觉反馈方法，显著提高了图像分类性能，并产生了可解释和稳健的特征描述符。

Nov, 2023

训练小型情感视觉语言模型以实现对视觉艺术的理解

该研究开发了小型视觉语言模型，旨在通过情感建模和输入输出特征对齐，识别视觉艺术作品的情感类别并解释预测结果，实验证明该模型在理解视觉艺术方面的性能明显优于基准模型。

Mar, 2024

上下文解锁情感：基于文本的情感分类数据集在大型语言模型中的审计

利用大型语言模型的表达能力，为输入文本合成额外的上下文，以增加其与带有注释的情感标签的关联性。通过提出文本上下文的形式化定义，并使用提示策略增强这种上下文信息，我们通过人工评估和实证评估证明了我们的方法改善了输入和人工注释标签之间的关联性。

Nov, 2023

图像情感识别的高层次语境表示

本文提出了一种从图像中提取高级语境表示的方法，利用单个线索和单个编码流与情感相关联，并且该模型的执行效率比以前的模型更高，其在 EMOTIC 数据集上达到了 0.3002 的 mAP 并且能够在消费级硬件上以每秒大约 90 帧的速度执行，容易部署在解决与情感识别相关的现实问题中。

May, 2023