图像情感识别的高层次语境表示

CVPRMay, 2023

High-Level Context Representation for Emotion Recognition in Images

Willams de Lima Costa, Estefania Talavera Martinez, Lucas Silva Figueiredo, Veronica Teichrieb

TL;DR本文提出了一种从图像中提取高级语境表示的方法，利用单个线索和单个编码流与情感相关联，并且该模型的执行效率比以前的模型更高，其在 EMOTIC 数据集上达到了 0.3002 的 mAP 并且能够在消费级硬件上以每秒大约 90 帧的速度执行，容易部署在解决与情感识别相关的现实问题中。

Abstract

emotion recognition is the task of classifying perceived emotions in people. Previous works have utilized various nonverbal cues to extract features from images and correlate them to emotions. Of these cues,

emotion recognition nonverbal cues situational context high-level context representation extraction consumer-grade hardware

发现论文，激发创造

基于语境的情感识别：使用 EMOTIC 数据集

本研究提出一个多元感情图像数据集 EMOTIC，并通过 bounding box 、场景语境等方法训练多种卷积神经网络模型，结果表明场景语境对自动识别情感状态提供了重要信息，为情感识别领域的研究提供了新思路。

Mar, 2020

大型视觉语言模型的语境情感识别

在这篇研究论文中，我们使用最近的大型视觉语言模型来探讨两种主要方法：图像字幕生成与仅使用语言的 LLM，以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context（EMOTIC）数据集上评估这些方法，并展示出即使在小型数据集上进行微调，视觉语言模型的性能也能显著超过传统的基准方法。我们的研究结果旨在帮助未来的机器人和智能系统对情感进行敏感的决策和交互行为。

May, 2024

图像标题的情感背景评估

通过图像的标题生成以及使用大型语言模型（LLMs）进行推理的方法，该论文探讨了 LLMs 是否可以支持上下文情感估计任务，并表明 GPT-3.5 模型在情感预测方面具有潜力。

Sep, 2023

用常识推理提供更好的语境进行情感理解的 VLLMs

利用视觉和大规模语言模型（VLLMs）的开创性能力，我们提出了一种两阶段方法来增强上下文情绪分类，首先利用 VLLMs 生成自然语言描述主体与视觉情境之间的明显情绪，然后将这些描述与图像输入一起用于训练融合文本和视觉特征的基于变换器的结构，在不引入复杂训练方法的情况下显著优于单一模态，并且在 EMOTIC、CAER-S 和 BoLD 三个数据集上达到了与更复杂方法相媲美甚至更高的准确性。

Apr, 2024

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

EmotiCon: 利用弗雷格原则的上下文感知多模态情绪识别

EmotiCon 是一个基于学习的算法，用于从视频和图片中识别上下文感知的人类情感。该算法利用多种模态，自注意力卷积神经网络以及深度图模型识别情感，提高了对 EMOTIC 和 GroupWalk 数据集中情感进行识别的准确率。

Mar, 2020

利用多模态场景信息的情感感知

利用预训练视觉语言模型从图像中提取前景环境描述，并结合其他多元素素进行情感预测，在自然环境和电视秀等数据集中取得了可行的结果。

Mar, 2023

对话中语音情感识别的分段特征表示的深度学习

本文针对会话中情绪识别的复杂性，提出了一种利用双向门控循环神经网络捕捉上下文相关性和说话人之间相互作用的对话情感识别方法。实验结果表明该方法比现有的最先进方法更为有效。

Feb, 2023

一种用于群体级情感识别的注意力模型

本文提出了一种新的方法，使用全局表示和局部表示的相互补充信息对包含人群的图像进行情感分类，其中，使用卷积神经网络 (CNN) 学习图像的全局表示，通过注意力机制合并面部特征获得局部表示，将两种表示独立学习后通过级联融合，采用多种变化的模型组成的集成方法在 EmotiW 2018 群体情感识别挑战中取得了 64.83% 的测试集准确率，排名挑战参赛者的第 4 位。

Jul, 2018

利用场景和语义特征进行多模态情感识别

提出了一种利用场景和语义特征的多模态情绪识别方法，通过结合人物特征和环境上下文，使用 EmbraceNet 提取图像特征，并在 EMOTIC 数据集上验证了方法的有效性。

Aug, 2023